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xiachf olgend : 

P CT - P a ten tarcme 1 dung fiiac alle Lander 

Pact XPP Technologies AG 
Mutbmannstr . 1 
Munchen 

1. Einleifcung 

Die vorliegende Erf indung betrif ft das Oberbegrif f lich Bean- 
spruchte. bamit befaBt sich die vorliegende Erf indung mit der 
Frage, wie rekonf igurierbare Architekturen optimal verwendet 
werden konnen und insbesondere damit, wie Anweisungen in einer 
gegebenen Hochsprache in rekonf igurierbaren Architekturen op- 
timal zur Ausftihrung gebracht warden konnen. 

Urn in sog„ Hochsprachen geschriebene Anweisungen zur Handha- 
bung von Daten ( Pr ogramiue ) in einer jeweiligen, zur Datenhand- 
habung verwendeten Architektur zur Ausfuhrung zu bringen, sind 
sog. Compiler bekannt, die die Anweisungen der Hochsprache in 
an die verwendete Architektur besser angepaftte Anweisungen 
Ubersetzen. Compiler, die dabei hochparallele Architekturen 
besonders uhterstUtzen, sind demgemaB parallelisierende Compi- 
ler . 

Parallelisierende Compiler nach dem Stand der Technik verwen- 
den fur gewShnlich spezielle Konstrukte wie Semaphore und/oder 
andere Verfahren zur Synchronisation. Dabei werden typischer- 
weise technologiespezif ische Verfahren verwendet . Bekannte 
Verfahren sind nicht geeignet, um funktional specif izierte Ar- 
chitekturen mit dem sugehGrigen Zeitverhalten und imperativ 
spezif izierte Algorithem zu kombinieren. Daher liefern die 
verwendeten Methoden nur in Spezialf alien zuf riedenstellende 
Lttsungen. 
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Compiler fur rekonf igurierbare Architekturen, insbesondere fur 
rekonfigurierbaren Prozessoren, verwenden far gew5hnlich Ma- 
kros, die speziell far die bestimmte rekonf igurierbare Hard- 
ware erstellt wurden, wobei fur die Erstellung der Makros zu- 
meist Hardwarebeschreibungssprachen wie z.B. Verilog, VHDL 
oder System-C verwendet werden. Diese Makros werden dann von 
einer gewohnlichen Hochsprache (z.B. C, C++) aus dem Programm- 
fluss heraus aufgerufen (instantiiert) . 

Compiler fur Parallelrechner sind bekannt, dxe auf einer grob- 
granularen Struktur, zumeist basierend auf kompletten Funktio- 
nen oder Threads Prograromteile auf mehrere Prozessoren abbil- 
den , 

Weiterhin sind vektorisierende Compiler bekannt, die eine 
weitgehende lineare Datenverarbeitung, wie z.B. Berechnungen 
grofier Ausdriicke in eine vektorisierte Form .umwandeln und da- 
mit die jBerechnung auf superskalaren Prozessoren und Vektor- 
prozessoren (z.B, Pentium, Cray) ermSglichen . 

Vorliegend wird ein Verfahren zur automatischen Abbildung von 

funktional oder imperativ formulierten Rechenvorschrif ten auf 

unterschiedliche Zieltechnologien beschrieben, insbesondere 

auf ASICs, rekonf igurierbare Bausteine (FPGAs, DPGAs, VPUs, 

ChessArray, KressArray, Chameleon, etc.; im folgenden unter 

dem Begrif f VPU zusammengefafit) , sequentielle Prozessoren 

(CISC- /RISC— CPUs, DSPs, etc.; im folgenden unter dem Begrif f 

CPU zusammengef alit) und parallele Rechnersysteme (SMP, MMP, 

etc.)* Hingewiesen wird insbesondere in diesem Zusammenhahg 

auf die folgenden Schut2rechte und Patentanmeldungen desselben 

Anmelders: P 44 16 881.0-53, DB 197 81" 412-3, DE 197 81 483.2, 

DE 196 54 846.2-53, DE 196 54 593.5-53, DE 197 04 044,6-53, 

DE 198 80 129,7, DE 198 61 088.2-53, DE 199 80 312-9, 

PCT/DE 00/01869, DE 100 36 627.9-33, DE 100 28 397.7, 

* 
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DE 101 10 530. 4, DE 101 11 014.6, PCT/EP 00/10516, 
EP 01 102 674. 7 r PACT13, PACT17, PACT18, PACT22, PACT24, 
PACT25, PACT26US, PACT 02, FACT04, PACT08, PACT10, FACT15, 
PACT18(a), PACT 27, PACT 19 . Diese sind hiermit zu Offenba- 
rungszwecken vollumf anglich eingegliedert . 

VpUs bestehen grunds^tzlich aus einer mehrdimensionalen homo- 
genen oder inhomogenen, flachen oder hierarchischen Anordung 
(PA) von Zellen (PAEs), die beliebige Funktionen, i.b- logi- 
sche und/oder arithmetische Funktionen und/oder Speicherf unk- 
tionen und/oder Netzwerkf unktionen ausfuhren kdnnen. Den PAEs 
ist typisch eine Ladeeinheit (CT) zugeordnet, die die.Funktion 
der PAEs durch Konf iguration und ggf • Rekonf iguration be- 
stimmt. 

Das Verfahren basiert auf einem abstrakten parallelen Maschi- 
nenmodell, das neben dem endlichen Automaten auch imperative 
Problemspezif ikationen integriert und eine ef f iziente algo- 
rithmische Ableitung einer Implementierung auf unterschiedli- 
che Technologien ermoglicht. 

Folgende Compilerklassen sind nach dem Stand der Technik be- 
kannt : 

Klassische Compiler, die haufig Stack-Maschinen-Code generie- 
ren und far sehr einfache Prozessoren geeignet waren, die im 
Wesentlichen als noritiale Sequenzer ausgestaltet sind. (vgl. 
N.Wirth, Compilerbau, Teubner Verlag) . 

Vektorisierender Compiler bauen weitgehend linearen Code, der 
auf spezielle Vektorrechner oder stark gepipelinte Prozessoren 
abgestimmt ist. Ursprttnglich waren diese Compiler fur Vektor- 
rechner wis CRAY verfugbar. Moderne Prozessoren wie Pentium 
benotigen aufgrund der langen Pipelinestruktur ahnliche Ver- 
fahren- Da die einzelnen Rechenschritre vefcxorisiert (gepipe- 

3 . • 
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lined) ablaufen ist der Code sehr viel effizienter. Allerdings 
bereitet der bedingte Sprung Probleme far die Pipeline. Daher 
ist eine Sprungvorhersage ' sinnvoll, die ein Sprungziel an- 
nimrtit. Ist die Annahme falsch r muss jedoch die gesamte Verar- 
beitungspipeline geloscht werden, Mit anderen Wort en ist jeder 
Sprung fur diese Compiler problematisch, eine Parallelverar- 
beitung im eigentlichen Sinn ist nicht gegeben, Sprungvorher- 
sagen und Shnliche Mechanismen erfordern einen erheblichen Zu- 
satzaufwand an Hardware. 

Grobgranulare parallele Compiler existieren im eigentlichen 
Sinne kaum, die Parallelitat wird typischerweise durch den 
Programmierer oder das Betriebssystem markiert und verwaltet, 
also beipielsweise bei MMP-Computersysteme wie verscheiden IBM 
Architekturen, ASCI Red, etc* zumeist auf Thread-Ebene durch- 
gefuhrt. Ein Thread ist ein weitgehend unabh&ngiger Programme 
block oder gar ein anderes Programm. Threads sind daher grob- 
granular einfach zu parallelisieren. Die Synchronisation und 
Datenkonsistenz ist vom Programmierer b2w. dem Betriebssystem 
sicherzustellen. Dies ist aufwendig zu programniieren und er- 
fordert einen wesentlichen Anteil der Rechenlei stung eines 
Parallelrechner- Zudem ist durch diese grobe Parallelisierung 
nur ein Bruchteil der eigentlich moglichen Parallelitat tat- 
sSchtlich nutzbar- 

Feingranulare parallele (z.B. VLIW) Compiler versuchen die 
Parallelitat feingraunlar in VLIW Rechenwerke abzubilden, die 
mehrere Rechenoperationen in einem Takt parallel ausfuhren 
konnen aber einen gemeinsamen Registersatz besitzen. Ein we- 
sentliches Problem stellt dieser limitierte Registersatz dar r 
da er die Daten fua: sSiutliche Rechenoperationen bereitstellen 
muss. Zudem erschweren Datenabhangigkeiten und inkonsistente 
Lese/Schreiboperationen (LOAD/ STORE) die Parallelisierung. 
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Rekonfigurierbare Prozessoren weisen eine groBe Anzahl an un- 
abhangigen Rechenwerken auf r die typisch in einem Feld ange- 
ordnet sind. Diese sind typisch nicht durch einen gemeinsamen 
Registersatz, sondern durch Busse miteinander verbunden. Da- 
durch lassen sich einerseits leicht Vektorrechenwerke aufbau- 
en, andererseits kttnnen auch einfach parallele Operationen 
durchgefuhrt werden. Durch die Busverbindungen werden entgegen 
der her kammli chen Registerkonzepte Datenabhangigkeiten aufge- 
lost. 

Die Aufgabe der vorliegenden Erfindung besteht darin, Neues 
fur die gewerbliche Anwendung beraitzustellen. 

Die Losung dieser Aufgabe wird in unabhangiger Fonu bean- 
sprucht. Bevorzugte Ausfuhrungsf ormen finden sich in den Un~ 
teranspruchen , 

Es wird also vorgeschlagen, fur einen Compiler ftir rekonfigu- 
rierbare' Prozessoren die Konzepte von vektorisierenden Compi- 
lern und parallelisierenden (z.B. VLIW) Compilern zugleich an- 
zuwenden und somit auf f eingranularer Ebene zu Vektorisieren 
und parallelisieren* 

Ein wesentlicher Vorteil besteht darin r dass der Compiler 
nicht auf eine fast vorgegebene Hardwarestruktur abbilden 
muss r sondern die Hardwarestruktur mit dem erf indungsgem&Ben- 
Verfahren so konfiguriert werden kann r dass sie optimal fur 
die Abbildung des jeweiligen compilierten Algorithmus geeignet 
ist . 



2 , BeschreUaung 1 

Als Grundlage zur Abarbeitung praktisch jeder Methodik zur 
Spezifizierurig von Algorithmen wird der endliche Automat ge- 
nutzt. Die struktur eines endiichen Automaten ist in Figur 1 
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abgebildet. Ein einfacher endlicher Automat zerfallt in ein 



kombinatorisches Netz und eine Registerstuf e zum Zwischenspei- 
chern von Daten zwischen den einzelnen Datenverarbeitungszy- 
klen- 

Ein endlicher Automat fuhrt eine Anzahl rein kombinat'orischer 
(also z.B. logischer und/oder arithmetischer) Datenmanipula- 
tionen aus, urn danach einen stabilen Zustand zu erreichen, der 
in einem Register (sat2) reprasentiert wird. Basierend auf die- 
sem stabilen Zustand wird entschieden, welcher nachste Zustand 
im nachsten Verarbeitungsschritt erreicht werden soil und so- 
mit auch, welche kombinatorischen Datenmanipulationen im nSch- 
sten Schritt durchgefuhrt werden sollen. 

Beispielsweise reprasentiert ein Prozessor oder Sequenzer ei* * 
nen endlichen Automaten. In eiziem ersten Verarbeitungsschritt 
kann eine Subtraktion von datendurchgef uhrt werden. Das Ergeb- 
nis wird gespeichert. Im nachsten Schritt kann basierend auf- 
dem Ergebnis der Subtraktion ein Sprung durchgefuhrt werden, 
der je nach Vorzeichen des Ergebnisses in eine andere Weiter- 
verarbeitung ftthrt, 

Der endliche Automat ermeglicht die Abbildung komplexer Algo- 
rithmen auf beliebige sequent ielle Maschinen, wie in Figur 2 
abgebildet. Der dargestellte komplexe endliche Automat besteht 
aus einem komplexen kombinatorischen Netz, einem Speicher zum 
Ablegen von Daten und einem Adressgenerator zum Adressieren 
der Daten im Speicher. 

Nun kann jedes beliebige sequent ielle Programm grundlegend als 
endlicher Automat interpret iert werden, wobei aber sumeist ein 
sehr groJBes kombinatorisches Netz entsteht. Bei der Program- 
mierung klassischer "von Neumann '"-Architekturen - also bei al- 
ien CPUs - werden daher die kombinatorischen Operationen in 
■; eine Folge von jeweils einzelnen einfachen, fest vorgegebenen 
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Operationen (OpCodes) auf CPU-interne Register zerlegt. Durch 
dies© Zerlegung entstehen Zustande zur Steuerung der in eine 
Folge zerlegten kombinatorischen Operation, die aber innerhalb 
der urspriinglichen kombinatorischen Operation per se nicht 
vqrhanden sind r bzw. nicht benStigt werden. Daher sind jedoch 
die abzuarbeitenden Zustande einer von Neumann Maschinen 
grundsatzlich von den algorithmischen Zustanden eines kombina- 
torischen Netzes, also den Registern endlicher Automaten zu 
unterscheiden • 

Es wurde nun erkannt r dass die VPU-Technologie '(wis sie im We- 
sentlichen durch einige oder alle der Schriften FACTO 1, 
PACT02, PACT03, PACT04, PACT 05, PACT08, PACT10, PACT13, 
PACT17, PACT18, PACTZ2, PACT24 definiert ist, die durch Bezug- 
nahme vollumf anglich eingegliedert sind) im Gegensatz zu den 
starren Opcodes von CPUs ermoglicht, komplexe Instruktionen 
entsprechend eines abzubildenden Algorithmus wie in flexiblen 
Konf igurationen hineinzukompilieren . 



2.1 Arbexfcgwexse des Compilers 

Besonders vorteilhaft ist bei der Arbeitsweise des Compilers,, 
wenn die komplexen Instruktionen derart generiert werden, daJJ- 
diese m6glichst lange in der PAE-Matrix ohne Rekonf igruration 
ausgeftthrt wird. 

Der Compiler generiert weiterhin den endlichen Automaten be- 
vorzugt aus deiu imperativen Quelltext derart, daJi er der je- 
weiligen PAE-Matrix besonders gut angepasst ist, also solche 
Operationen darin vorgesehen werden, die die typisch grobgra- 
nularen Logikkreise (ALUs etc.), gegebenenf alls auch vorhande- 
ne feingranulare Element e (FFGA-Zellen in der VPU, statema chi- 
nes etc.) besonders effizient nutzen. 
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Der compilererzeugte endliche Automat wird dann in Konfigura- 
tionen zerlegt. 

Das Abarbeiten (Interpretieren) des endlichen Automaten ge- 
schieht auf einer VPO derart, dafi die generierten Konfigura- 
tionen succesive auf die PAE-Matrix abgebildet werden und die 
Arbeitsdaten und/oder Zustande, die zwischen den Konf iguratio- 
nen zu tibertragen sind r in Speicher abgelegt werden. Dazu kann 
das aus PACT 04 bekannte Verfahren bzw. die entsprechende Ar- 
chitektur verwendet werden. Dieser * Speicher wird vom Compiler 
bestimmt beziehungsweise vorgesehen. Es repr&sentiert eine 
Konf iguration dabei eine Mehrzahl von Instruktionen; eine Kon- 
figuration bestimmt zugleich fur eine Vielzahl von Takten die 
Arbeitsweise der PAE -Matrix/ w&hrend dieser Takte wird eine 
vielzahl von Daten. in der Matrix verarbeitet ; diese stammen 
aus einer VPU externen Quelle und/oder einem internen Speicher 
und werden an eine externe Quelle und/oder einen internen 
Speicher geschrieben. Die internen Sp.eicher ersetzen dabei den 
Registersatz einer CPU nach derii Stand der Technik derart, dafi 
z.B. ein Register durch einen Speicher reprasentiert wird r wo- 
bei nicht ein Datenwort je Register gespei chert wird, sondern 
ein gesamter Datensatz je Speicher- 

Wesentlich kann auch sein r daB die Daten und/oder Zustande der 
Verarbeitung einer ablaufenden Konf iguration compilerbestimmt 
in die Speicher abgelegt werden und somit der nachsten ablau- 
fenden Konf iguration zur Verfugung stehen. 

Ein bedeutender Unterschied zu Compilern, die auf Instruk- 
tionsbasis parallelisieren, besteht somit darin, dafi das Ver- 
fahren die PAE-Matrix derart konfiguriert und rekonfiguriert r 
dass eine konf igurierte Folge von kombinatorischen Netzen auf 
einer VPU emuliert wird, w&hrend herkeirauliche Compiler gelade- 
ne Folgen von Instruktionen (Opcodes) kombinieren, wobei eine 
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Instruktion als ein kombinatorisches Netz betrachtet werden 
kannl 



2 . 2 Aa3f uhrungsbeispiel WHILE -Spirarfie 

Im Folgenden soil die Funktionsweise des Compilers arihand ei- 
ner einfachen Sprache beispielhaf t verdeutlicht werden. Dabei 
wird von einer Sprache ausgegangen, die in ihren Grundlagen 
bereits bekannt 1st, wobei in einer bekannten Verof f entlichung 
[Referenz "Doktorarbeit Armin Ntickel"] jedoch lediglich die 
Abbildung einer Funktion auf ein statisches kombinatorisches 
Netz beschrieben wird, wahrend mit der Erfindung nun die Ab- 
bildung auf Konf igurationen erfolgt, die dann in einer zeitli- 
chen Reihenfolge entsprechend des Algorithmus und der sich 
wahrend der Verarbeitung ergebenden Zustande auf die PAE- 
Matrix abgebildet werden. 

Die Prcograramiersprache geht davon aus, dass neben einfachen 
logischen und/oder arithmetischen Verkniipf ungen ein Befehl 
"WHILE n existiert, der mit folgender Syntax definiert ist: 
WHILE... 

Mogliche Konstrukte sind damit: Anweisung 

Folge von Anweisungen 
Schleif e 

Eine Anweisung Oder eine Folge von Anweisungen ist durch das 
beschriebene Compiler-Verf ahren auf ein kombinatorisches Netz 
abbildbar. 

Pigiaar 3a zeigt ein kombinatorisches Netz iait den dazugehOren- 
den Variablen. Dabei kann sich der Inhalt ein und derselben 
Variable (z.B. xl) von einer Stufe (0301) des Netzes zur nach- 
sten (0302) and^rn. 
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Diese Veranderung ist beispielsweise fur die Zuweisung 
xl xl + 1 

in Figur 3b dargestellt. 

Zur Adressierung zum Lesen der Operanden und zum Speichern der 
Ergebnisse kSnnen nun Adressgeneratoren mit dem kombinatori- 
schen Net 2 der Zuweisung synchronisiert werden. Mit jeder ver- 
arbeiteten Variable werden entsprechende neue Adressen far 
Operanden und Ergebnisse generiert (Pigur 3c) - Die Art des 
Adressgenerators ist prinzipiell beliebig und hangt von den 
Adressierungsschematas der compilierten Applikation ab. 
Fur Operanden und Ergebnisse kennen gemeinsame, kombinierte 
oder vollstandig unabhangige Adressgeneratoren implement iert 
werden, 

Typischerweise werden bei der Datenverarbeitung wie im vorlie- 
genden Datenverarbeitungsmodell eine Mehrzahl von Daten inner- 
halb einer bestiromten Konf iguration der PAEs verarbeitet. Be- 
vorzugt ist der Compiler daher fur die in vielen, wenn nicht 
den meisten Anwendungen moglichen einfachen FIFO-Modus ausge- 
legt, der zumindest fur die Datenspeicher anwendbar ist, die 
innerhalb dieser Beschreibung zum Speichern von Daten und Zu- 
standen der Datenverarbeitung (quasi als Ersatz eines gewShn- 
lichen Regis tersatzes herkommlicher CPUs) dienen. Mit anderen 
Wort en dienen Speicher der temporaren Speicherung von Varia- 
blen zwischen den Konf igurationen. Auch hier ist eine Konfigu- 
ration ahnlich einer Instruktion eines normalen Prozessors und 
die Speicher (insbesondere eine Mehrzahl) sind verglaichbar 
mit dem Registersatz eines normalen Prozessors. 

2,2,3 Folgen von Anweisuncren 

Eine Fplge der beispielhaf ten Zuweisung lafit sich wie folgt 
generieren (Figur 4a) : 



10 
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xl 0; 

WHIZjE true do 

xl :~ xl + 1; 

Diese Folge laftt sich nunmehr mittels einer Zuweisung gemafi 
2.2,1 und Adressgeneratoren fur Operanden und Ergebnisse ab- 
bilden. 

Endliche Folgen 

Der Vollst&ndigkeit halber soil eine besondere Ausgestaltung 
von Folgen abseits der definierten Konstrukte der WHILE Spra- 
che diskutiert warden. Eine endliche Folge der beispielhaf ten 
Zuweisung laBt sich wie folgt generieren: 
FOR i:=l TO 10 

xl xl + 1; 

Eine derartige Folge l&Bt sich durch zwei Arten implementie- 
ren : 

a) Durch Generierung eines Addierers zur Berechnung von i ent- 
sprechend des WfilLE-Konstruktes (siehe 2.2-4) und eines 
weiteren Addierers zur Berechnung von xl . Dio Folge wird 
als Schleife abgebildet und iterativ berechnet (Figur 5a) . 

b) Durch Auswalzen der Schleife, wodurch die Berechnung von i 
als Funktion entfallt. Die Berechnung von xl wird i-mal in- 
stantiiert und als Pipeline aufgebaut, wodurch i nacheinan- 
der geschaltete Addierer entstehen (Figur 5b) - 

2-2 - 4 Bedingungen 

Bedingungen lassen sich mittels WHILE ausdrxicken- Beispiels- 

weise: 

xl := 0; 

WHILE xl < 10 DO 
2sl := xl + 1; 

Die Abbildung generiert eine susatzliche FAE zur Verarbeitung 
des Vergleiches. Das Vergleichsergebnis wird durch ein Sta- 
tussignal reprasentiert (vgl. Trigger in PACT08), das von den 

i 

ii 
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die Anweisung verarbeitenden PAEs unci den Adressgeneratoren 
ausgewertet wird. 

Die resultierende Abbildung iat in Figur 4b dargestellt. 

Durch die Auswertung der Bedingung (hier WHILE, generell und 
einleuchtenderweise auch andere Anweisungen wie IF; CASE area- 
lisierbar) wird ein Statu? generiert, der der nachf olgenden 
Datenverarbeitung zur Verfugung gestellt werden kann (DE 197 
04 728.9) und/oder an die CT Oder eine lokale Ladesteuerung 

(DE 196 54 846.2) gesendet werden kann r die daraus Information 

i. 

aber den weiteren Progranunf lufi und evtl. anstehende Rekonfigu- 
rationen ableitet. 

2.2.5 Grundlegendes Verfahren 

Entsprechend den vorherigen Verfahren wird jedes Programm in 
©in System abgebildet, das wie folgt auf gebaut ' ist : 
1. Speichor fur Operanden (vgl. Register einer CPU) 
2-Speicher fttr Ergebnisse (vgl. Register einer CPU) 
3. Netzwerk aus a) Zuweisungen und/oder b) Vergleichen- 
Anweisungen, also Bedingungen wie z.B. IF f CASE, Schleifen 
(WHILE, FOR, REPEAT) 

4- Optionalen Adressgenerator (en) zur Ansteuerung der Speicher 
nach 1 und 2 - 

2.2.6 Dmgang mit Z us tan den 

Es wird nun fur die Zwecke des beschriebenen Compilers swi- 
schen algorithmisch relevanten und irrelevanten Zustanden un- 
terschieden- Zustande werden in der VPU-Technologie fur ge- 
wohnlich durch Statussignale (z.B. Trigger in PACT08) und/oder 
Handshakes (z.B. RDY/ACK in PACT02) dargestellt. Generell kon- 
nen Zustande (v. a. in anderen Technologien, wie FPGAs r DPGAs, 
Chajmeleon-Bausteinen, Morphics, etc.) durch beliebige Signal®, 
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Signalbundel und/cder Register dargestellt werden. Das offen- 
barte Compilierverfahren kann auch auf solche angelegt werden r 
obwohl wesentliche Teile der Beschreibung bevqrzugt auf die 
VPU fokussieren. 

Relevant© Zustande^ sind innerhalb des Algorithmus notwendig urn 
dessen korrekte Funktion zu beschreiben. Sie sind fur den Al- 
gorithmus wesentlich- 

Irrelevante Zustande entstehen durch die verwendete Hardware 
und/cder die gewahlte Abbildung oder aus anderen sekundaren 
Grunden. Sie sind damit fur die Abbildung (also die Hardware) 
wesentlich. 

Lediglich die relevanten Zustande miissen mit den Daten erhal- 
ten werden- Daher werden diese zusammen mit den Daten in den 
Speichern abgelegt, da sie entweder als Ergebnis. der Verarbei- 
tung mit den Daten auftraten oder als Operanden mit den Daten 
fur den nachsten Verarbeitungssyklus notwendig sind. 

Irrelevante Zustande sind dagegen nur Srtlich und/oder zeit- 
lich lokal notwendig und mtissen daher nicht gespeichert wer- 
den. 

Beispiel: 

a) Die Zustandsinf ormation eines Vergleichs ist fur die weite- 
re Verarbeitung der Daten relevant, da dieser die auszufuh- 
renden Funktionen bestimmt. 

b) • Angenommen, ein sequentieller Dividierer entsteht bei- - 

spielsweise durch Abbildung eines Divisionsbef ehles auf ei- 
ne Hardware, die nur die sequentielle Division untersttttzt . 
Dadurch entsteht ein Zustand, der den Rechenschritt inner- 
halb der Division kennzeichnet . Dieser Zustand ist irrele- 
vant, da fQr den Algorithmus nur das Ergebnis (also die 
ausgefuhrte Division) erforderlich ist. In diesem Fall wer- 
den also lediglich das Ergebnis und die Zeitinf ormation 
(also die Verf ugbarkeix:) benotigt. Der Compiler unterschei- 

13 
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det solche relevante und irrelevante Zustande bevorzugt 
voneinander. 

Die Zeitinf ormation ist beispielsweise in der • VPU-Technologie 
nach PACTQl r 02 , 13 durch das RDY/ACK Handshake erhSltlich. 
Hierzu ist jedoch bssonders anzumerken, dass das Handshake 
ebenfalls keine relevanten Zustand darstellt, da es lediglich 
die Gttltigkeit der Daten signalisiert r wodurch'sich wiederum 
die verbleibende relevante Information auf die Existenz gulti- 
ger Daten reduziert. 

2.2,7 Umgang mit Zeit 

In vielen Progranuniersprachen, besonders in sequentiellen wie 
z.B. C, wird eine exakte zeitliche Reihenfolge implizit durch 
die Sprache vorgegeben; bei sequentiellen Programmiersprachen 
geschieht dies beispielsweise durch die Reihenfolge der ein- 
zelnen Anweisungen. Sofern dies durch die Programniiersprache 
und/oder den Algorithmus erforderlich ist, wird das Compilier- 
verfahren so ausgefuhrt, dass sich die Zeitinf ormation auf 
Synchronisationsmodelle wie RDY/ACK und/oder REQ/ACK oder ein 
Time-Stamp-Verfahren nach DE 101 10 530.4 abbilden lasst. 

Mit anderen Worten wird die implizite Zeitinf ormation von se- 
quentiellen Sprachen in ein Handshake Protokoll derart abge- 
bildet, dass das Handshake Protokoll (RDY/ACK- Protokoll) die 
Zeitinformation tibertragt und insbesondere die Reihenfolge der 
Zuweisungen garantiert. 

Beispielsweise wird die nachfolgende for-Schleife nur dann 
durchlaufen und iteriert f wenn die Variable input stream je 
Durchlauf mit einem RDY quit-tier t ist. Bleibt RDY aus f wird 
der Schleifendurchlauf bis zum Eintreffen von RDY angehalten. 
while TRUE 

i 

i 

14 
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3 := 0 . 

for i:« 1 to 3 

s := s + inputstream; 

Die Eigenschaft der sequentiellen Sprachen, nur von der Be- 
f ehlsverarbeitung gesteuert zu werden, wird somit bei der Com-, 
pilierung mit deiu Datenf luBprinzip, die Verarbeitung durch den 
Datenstrom r bzw. die EKistenz von Daten zu steuern verbunden- 
Mit anderen Worten wird ein Befehl und/oder eine Anweisung 
(z,B. s :=» s + inputstream;) nur verarbeitet, wenn die Opera- 
tion ausgefiihrt werden kann und die Daten verfugbar sind. 

Bemerkenswert ist, dafi dieses Verfahren gew5hnlicherweise zu 
keiner ftnderung der Syntax oder Semantik einer Hochsprache 
ftihrt. Es kann also vorhandener Hochsprachencode durch Neucom- 
pilierung problemfrei zur Ausfuhrung auf einer VPU gebracht 
werden. 

2,2.8 Laden und Speichern von Paten 

Ftir die Grundlagen der Load/Store Operationen ist folgendes 
beachtlich. 

Die nachf olgenden Adressierungsarten werden unterschiedlich 
behandelt: 

1, externe Adressierung, also die Datentransf ers mit ssxter- 
nen Baugruppen 

2. interne Adressierung, also die Datentransf ers zwischen 
PAEs, i.b- zwischen RAM- PAEs und ALU-PAEs 

Desweiteren kann die zeitliche Entkopplung der Datenverarbei- 
tung und dem Laden und Speichern der Daten besondere Beachtung 
f inden. 



* 
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Bustransfers werden in interne und externe Transfers zerlegt 
btl, Ettterne Lesezugriffe (Load Operation) werden separiert, 
in einer mSgli.chen AusfOhrung auch bevorzugt in eine separate 
Konfiguration ubersetzt. Die Daten werden von eine* extemen 
Speicher in einen internen transferiert . 

bt2) Interne Zugriffe werden mit der Datenverarbeitung gekop- 
pmlt, d.h. die internen Speicher (Register Operation) werden 
fur. die Datenverarbeitung gelesen, bzw. beschrieben. 

bt3) Externe Schreibzugrif f e (Store Operation) werden sepa- 
riert, in einer bevorzugten mOglichen Ausftihrung auch in eine 
separate Konfiguration ubersetzt. Die Daten werden von einem 
internen Speicher in einen externen transferiert. 

Wesentlich ist, dass die btl, bt2, bt3 - a lso das Laden der 
Daten (Load) , das Verarbeiten der Daten (Datenverarbeitung und 
bt2) «nd das Schreibeh der Daten (bt3) - in unterscheidliche 
Konfigurationen ubersetzt werden kennen und diese ggf . zu ei _ 
nem unterschiedlichen Zeitpunkt ausgefuhrt werden. 

Das Verfahren soil an dem nachfolgenden Beispiel verdeutlicht 
werden: 

function example (a, b : integer) -> x : integer 
for i: = l to 100 
for j : = l to 100 

xfij a[i) * b[j] 

Die Funktion kann vom Compiler in drei Telle, bzw. Konfigura- 
tionen (subconfig) trans formiert : 

^ample#dload: Ladt die Daten von extern (Speicher, Periphe- 
ry etc., una schreibt diese in interne Speicher. Interne 
speacher sind mit r# und dem Namen der ursprunglichen Variable 
gekennzeichnet . 
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exaitiple#process: Entspricht der eigentlichen Datenverarbei- 
tung. Diese liest die Daten aus internem Operanden und 
schreibt die Ergebnisse wieder in interne Speicher.* 
exampletdstore: schreibt die Ergebnisse aus dem internen Spei- 
cher nach extern (Speicher f Peripherie, " etc. ) . 

function example# (a f b : integer) -> x : integer 
svibconfig example* dload 
for i := 1 to 100 

r#a[i] a[i] 
for j := 1 to 100 

r#b[j] := b[j] 

subconf ig example#process 
for i := 1 to" 100 
for j:- 1 to 100 

r#x[ij := r#a[i] * r#b[j] 

subconfig example#dstore 
for i := 1 to 100 
x[i] :« r#x[i] 

Ein wesentlicher Effekt des Verfahrens ist, dass anstatt i*j - 
100 * 100. = 10.000 externa Zugriffe nur i+j 100 + 100 = 200 
externe Zugriffe zum Lesen der Operanden ausgefuhrt werden. 
Diese Zugriffe sind zudem noch vollkoramen linear, was die 
Transf ergeschwindigkeit bei modernen Bussystemen (Burst) 
und/oder Speichern (SDRAM, DDRAM, Ri^MBUS, etc) erheblich be- 
schlsunigt , 

Die internen Speicherzugriffe erfolgen parallel r da den Ope- 
randen unterschiedliche Speicher zugewiesen wurden. 
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Zuiu Schreiben der Ergebnisse sind i « 100 externa Zugriffe 
notwendig, die ebenfalls wieder linear mit maximaler Perfor- 
mance erfolgen konnen. 

Wenn die Anzahl der Datentransf ers vorab nicht bekannt ist 
(z-B. WHILE-Schleifen) Oder* sehr grofl ist, kann ein Verfahren 
verwendet werden, das bei Bedarf durch Unterprogrammauf ruf e 
die Operanden nachladt bzw. die Ergebnisse nach extern 
schreibt. Dazu konnen in einer bevorzugten Ausfiihrung (auch) 
die Zustande der FIFOs abgefragt werden: f empty" wenn das FIFO 
leer ist, sowie 'full 1 wenn das FIFO voll ist. Entsprechend 
der Zustande reagiert der Programmf luli . Zu bemerken ist, dass 
bestimmte Variablen (z.B. ai, bi, xi) global definiert sind. 
Zu Perfonaanceoptlmierung .kann .ein Scheduler entsprechend der 
bereits beschriebenen Verfahren die Konf igurationen examp- 
le#dloada, example#dloadb bereits vor dem Aufruf von examp- 
le#process bereits ausfuhren,- sodass bereits Daten vorgeladen 
sind. Ebenso kann example#dstore (n) nach der Terminie rung von 
example#process noch aufgerufen werden urn r#x zu leeren. 

subconfig example#dloada (n) 
while !full(r#a) AND ai<=n 

r#a[ai] " :« a[ai] \ ' - " 

ai++ 



subconfig example#dloadb (n) 
while !full(r#b) AND bi<-n 
r#b[bi] := b[bi] 
bi++ 

subconfig exampleidstore (n) 
while ! empty (r#x) AND xi<=n 
x[xi] := r#x[xi] 
xi++ 
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subconfig example#process 
for i 1 to n 
for j := 1 to m 

if empty (r#a) then example#dloada (n) 

if empty (r#b) * then example#dloadb (m) 

if fuii(r#x) then example#dstore (n) 

r#x[i] := r#a[i] * r#b[jj 
bj := 1 

Die Unterprogrammauf ruf e und das Verwalten der globalen Varia- 
blen sind fur rekonf igurierbare Architekturen vergleichsweise 
aufwendig. Daher kann in einer beyorzugten Ausfilhrung die 
.nachf olgende Optimierung durchgef iihrt werden, in welcher s&mt- 
liche Konf igurationen weitgehend unabangig ablaufen und nach 
vollstandiger Abarbeitung terminieren (terminate) . Da die Da- 
• ten b[j] znehrfach erforderlich sind r muJS example#dloadb ent- 
sprechend mehrfach durchlaufen werden. Dazu werden beispiels- 
weise zwei Alternativen dargestellt: 

Alternative 1: example#dloadb terminiert nach jedem Durchlauf 
und wird von example#process fur jeden Neustart neu konfigu- 
riert . 

Alternative 2: eixample#dloadb lauft unendlich und' wird von ex- 
ainple#process terminiert „ 

W&hrend 'idle' ist eine Konf iguration untatig (wartend) . 

subconfig example#dloada (n) 
for i:« 1 to n 
while full(r#a) 

idle 
r#a[i] a[ij 
terminate 



subconfig exa^iple#dloadb (n) 
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while 1 // ALTERNATIVE 2 
for i:= 1 to n 
while full(r#b) 

idle 
r#b[i] := a[i] 
terminate 

subconfig example#dstore (n) 
for i:= 1 to n 
while empty (r#b) 

idle 
x[i] := r#x[i] 
terminate 

subconfig example#pi:ocess 
for i := 1 to n 
for j : = 1 to m 

while empty (r#a) or empty (r#b) or full (r#x) 
idle 

r#x[i] := r#a[i] * r#b[j] 
con fig 1 example#dloadb (n) // ALTERNATIVE 1 
terminate example#dloadb (n) // ALTERNATIVE 2 
terminate 



Zur Vermeidung von Wartezyklen konnen Konfigurationen auch 
terminiert warden, sobald sie ihre Aufgabe temporar nicht wel- 
ter erfvillen konnen. Die entsprechende Konf iguration wird von 
dem rekonfigurierbaren Baustein entfernt, verbleibt jedoch im 
Scheduler. Hierzu wird im Folgenden der Befehl 'reenter' ver- 
wendet. Die relevanten Variablen werden vor der Terminierung 
gesichert und bei der wiederholten Konf iguration wiederherge- 
stellt: 

subconfig example#dloada (n) 

. . 20 
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for ai: = 1 to n 

if full(r#a) reenter 

r#a[ai] := a[ai] 
terminate 

subcbnfig example#dloadb (n) 
while 1 // ALTERNATIVE 2 
for bi:= 1 to n 

if full(r#b) reenter 
r#b[bi] a [bi] 
terminate 

subconf ig example#dstore (n) 
for xi:- 1 to n 

if empty (r#b) reenter* 
x[xi] := r#x[xi] 
terminate • 

subcohfig example#process 
for i 1 to n 
for j:= 1 to m 

if empty (r#a) or empty (r#b) or full (rite) reenter 
rfac [i J := r#a[i] *'r#b[j] 
configr example#dloadb (n) // ALTERNATIVE 1 
terminate exampletfdloadb (n) // ALTERNATIVE 2 
terminate 



2.3 Makros 

Komplexere Funktionen einer Hochsprache, wie s.B. Sahleifen, 
werden typisch durch Makros realisiert. D±e Makros werden da- 
bei vom Compiler vorgegeben und sur Obersetzungsseit instanti- 
iert . ( vgl . Figur 4 ) . 
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Die Makros sind entweder aus einfachen Sprachkonstrukten der 
Hochspraohe oder auf Assemblerlevel aufgebaut- Makros konnen 
parametrisiert sein, urn eine einfache Adaption an den beschie- 
benen Algorithmus zu erm6glichen. (vgl. Figur 5, 0502) . Die 
Makros sind auch vorliegend einzugliedern. 

2.4 Feedback Loops und Register 

Innerhalb der Abbildung eines Algorithmus in ein kombinatori- 
sches Netz k5nnen unverzSgerte Riickkopplungen entstehen, die 
unkontrolliert schwingen* 

In praktisch implement ier ten VPU-Technologien gemaii PACT 02 
wird dies durch einen Aufbau der PAE verhindert, bei welch em 
mindestens ein Register zur Entkopplung, etwa fest in den 
PAEs, definiert ist, 

Generell sind unverzSgerte Ruckkopplungen durch Graphenanalyse 
des entstandenen kombinatorischen Netzes f eststellbar - In* die 
Datenpfade, in denen eine unverzogerte Ruckkopplung besteht, 
werden daraufhin gezielt Register, zur Entkopplung eingefugt. 
Der Compiler kann somit Register- beziehungsweise Speichermit- 
tel verwalten. 

Durch die Verwendung von Handshake-Protokollen (z.B, RDY/ACK 
gem. 2,2.7) ist die korrekte Funktion der Berechnung auch 
durch das Einftigen von Registern sichergestellt . 



2,5 Frozssormodell / Time Domain Multiplexing (TDM) 
Grundsatzlich besitzt jede praktisch realisierte PAE-Matrix 
lediglich eine endliche Grofie. Daher mufl im foigenden Schritt 
eine Partitionierung des Algorithmus nach 2-2.5 Abs. 4 a/b in 
eine Mehrzahl von Konf igurationen durchgef tthrt werden, die 
nacheinander in die PAE-Matrix konfiguriert werden. Ziel ist 
typisch, moglichst viele Datenpakete in dem Netzwerk zu be- 
rechnen, ohne umkonf igurieren zu mussen. 
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Zwischen den Konf igurationen wird eine Zwischenspeicherung 
vorgenommen, wobei der Zwischenspeicher - ahnlich eines Regi- 
sters bei CPUs - die Daten zwischen den einzelnen sequentiell 
ausgefuhrten Konf igurationen speichert. 

Somit wird durch das Rekonf igurieren von Konf igurationen, der 
Datenverarbeitung in der PAE-Matrix und der Zwischenspeiche- 
rung in den Speichern ein sequentielles Prosessormodell aufge- 
baut . 

Mit anderen Worten wird in der VPU-Technologie durch die be- 
schriebene Compilierung nicht ein Opcode sequentiell ausge- 
fuhrt, sondern komplexe Konf igurationen. WShrend bei CPUs ein 
Opcode typischerweise ein Datenwort bearbeitet, werden in der 
VPU-Technologie eine Mehrzahl von Datenworten (ein Datenpaket) 
von einer Konf iguration bearbeitet. Dadurch steigt die Effisi- 
enz der rekonf igurierbaren Architektur durch ein besseres Ver- 
haltnis zwischen Rekonf igUrat ions auf wand und Datenverarbei- 
tung, . 

In der VPU-Technologie wird zugleich anstatt eines Registers 
ein Speicher verwendet, da nicht Datenworte, sondern Datenpa- 
kete zwischen den Konf igurationen bearbeitet werden. 

Dieser Speicher kann als Random-Access Memory, Stack, FIFO 
oder als beliebige andere Speicherarchitektur ausgestaltet 
sein, wobei typischerweise mit einem FIFO die beste und am 
einfachsten zu realisiernde MSglichkeit gegeben ist.. 

Daten werden nunmehr durch die FAE-Matrix, entsprechend des 
konfigurierten Algorithmus, bearbeitet und in einem oder meh- 
reren .Speichern gespeichert. Die FAE-Matrix wird nach der Be-^ 
arbeitung einer Menge von Daten umkonf iguriert und die neue 
Konf iguration entnimmt die Zwischenergebnisse aus' dem/den 
speicher (n) und setzt die Ausfiihrung des Programmes fort. Da- 
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bei konnen durchaus auch neue Daten von externen Speichern 
und/oder der Peripherie zusatzlich in die Bereehnung einflie- 
fien, ebenso konnen Ergebnisse an externen Speichern und/oder 
der Peripherie geschrieben werden. 

Mit anderen Worten ist der typische Ablauf einer Datenverar- 
beitung das Auslesen von internen RAMs f das Verarbeiten der 
Daten in der Matrix und das Schreiben von Daten in die inter- 
nen Speicher, wobei zur Datenverarbeitung auch beliebige ex- 
teme Quellen oder Ziele fur Datentransfers zusMtzlich oder 
anstelle der internen Speicher verwendet werden konnen. 

Wahrend "sequencen" bei CPUs als das Neuladen eines Opcodes 
definiart isf r wird nach dem Vorstehenden "sequencen" von vpus 
also als das (Re) konf igurieren von Konfigurationen definiert. 
Dies bedeutet allerdings nicht, daB nicht unter bestimmten Be- 
dingungen Teile des Feldes als Sequenzer im herkommlichen Sin- 
ne betrieben werden konnten. 

Die Information, wann und/oder wis geseguenzt wird, d.h. wel- 
che nSchste Konf iguration . konf iguriert werden soil, ist durch 
verschiedene Inf ormationen darstellbar, die einzeln oder kom- 
biniert verwendet werden konnen. z. B. sind folgende Strategi- 
en zur Ableitung der Information all ein und/oder in Kombinati- 
on bzw. alternativ sinnvoll: 

a) durch den Compiler zur Obersetzungszeit definiert; 

b) durch das Event -Net zwerk definiert 
(Trigger, DE 197 04 728.3), 

wobei das Eventnet zwerk interne und/oder externa ZustMnde 
represent ieren kann; 

c) durch den Fullgrad der Speicher 

(Trigger, DE 197 04 728.9, DE 196 54 846.2-53). 

2.5.1 Einflufi de s TDM auf das Prozessormodell 
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Die Partitionierung des Algorithmus bestiiamt entscheidend die 
relevanten ZustSnde, die in den Speichern zwischen den ver- 
schiedenen Konf igurationen abgelegt werden. Sofern ein Zustand 
nur innerhalb einer Konf iguration relevant ist (lokal relevan- 
ter Zustand) , ist'es nicht notwendig, diesen zu speichern, was 
vom Compilierverf ahren bevorzugt beriicksichtigt wird. 

Zu Zwecken des Debuggings des auszuftihrenden Programmes kann 
es aber sinnvoli sein r diese Zustande dennoch zu speichern, urn 
dem Debugger einen Zugriff auf diese zu ercuoglichen. Auf die 
DE 101 42 904.5 wird verwiesen; diese ist hiermit vollumf Sng- 
lich zu Of fenbarungs zwecken eingegliedert- 

Weiterhin konnen zusatzlich Zustande relevant werden, wenn ein 
Taskswitch-Mechanisiuus (z.B, durch" ein Bet riebs system oder In- 
terruptquellen) verwendet wird und aktuelle ausgefuhrte Konfi- 
gurationen unterbrochen werden, andere Konf igurationen geladen 
werden und/oder zu einem spateren Zeitpunkt die abgebrochene 
Konf iguration fortgesetzt werden soli. Eine detailliertere Be- 
schreibung folgt im nachfolgenden Abschnitt. 

Ein einfaches Beispiel soil ein Unterscheidungsnterkmal fiir lo- 
kal relevant e Zustande aufzeigeh: 

a) Eine Verzweigung des Types "if () then else — n pafit 

vollstSndig in eine einzige Konf iguration, d.h. beide Da- 
tenpfade (Zweige) sind gemeinsam vollstSndig innerhalb der 
Konf iguration abgebildet. Der sich beim vergleich ergebende 
Zustand ist relevant, jedoch lokal, da er in den nachfol- 
genden Konf igurationen nicht mehr benStigt wird. 

b) Dieselbe Verzweigung ist zu groji, urn vollstandig in eine 
einsige Konf iguration zu passen. Mehrere Konf igurationen 
sind notwendig, urn die vollstandigen Datenpfade abzubilden- 
In diesem Fall ist der Zustand global relevant und muJ5 ge- 
speichert und den jeweiligen Daten zugeordnet werden, da 
die nachfolgenden Konf igurationen bei der Weiterver^rbei- 
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tung der Daten den jeweiligen Zustand des Vergleichs beno- 



2.6 Task- Switching 

Einen zusatzlichen EinfluJl auf die Betrachtung und den Unigang 
mit ZustSnden hat der iaogliche Einsatz eines Betriebssystemes . 



Verwalten mehrere Aufgaben (Tasks) , urn ein Multitasking zur 
Verfttgung zu stellen. 



Task-Scheduler brechen Tasks zu einem bestiiranten Zeitpunkt ab, 
starten andere Tasks und kehren nach deren Abarbeitung zur 
Weiterbearbeitung des abgebrochenen Tasks zurtick. 
Sofern sichergestellt ist, daft eine Konf iguration - die hier 
der Abarbeitung eines Tasks entsprechen kann nur nach der 
koiupletten Abarbeitung - d,h* wenn alle innerhalb dieses Kon- 
f igurationszyklusses zu bearbeitende Daten und ZustSnde ge- 
speicherfc sind - terminiert, kennen lokal relevant e ZustSnde 
ungespeichert bleiben. Dieses Verfahren, also das komplette 
abarbeiten einer Konf iguration und der nachfolgende Taskswitch 
ist die bevorzugte Methode fur den Betrieb von rekonf igurier- 
baren Prozessoren und entsprioht im Wesentlichen dem Ablauf in 
einem normalen Processor, der auch zunachst die aktuell bear- 
beiteten Instruktionen abarbeitet und dann den Task wechselt. 

Fur manche Anwendungen ist jedoch eine besonders kurze Reakti- 
on auf eine Taskwechselsanf orderung erf orderlich, z.B. in 
Recjltime-Anwendungen. Hier kann es sinnvoll sein Konf iguratio- . 
nen vor deren kompletter Abarbeitung abzubrechen. 
Sofern der Task-Scheduler Konf igurationen vor deren vollstan- 
diger Abarbeitung abbricht, ratissen lokale ZustSnde und/ocier 
Daten gespeichert werden. Weiterhin ist dies von Vorteil, wenn 
die. Abarbeitungszeit einer Konf iguration nicht vorhergesagt 
werden kann. In Verbindung mit dem bekannten Halteproblera und 
dem Bjisiko, daft eine Koniiguration (z.B. durch einen Fehler) 



tigen. 



Bet riebssyst erne verwenden beispielsweise Task-Scheduler zum 




/ 
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gar nicht terminiert, erscheint dies weiterhin sinrtvoll, urn 
daiait einen Deadlock des gesamten Systems zu verhindern. 
Daher sind vorliegend, unter Berucksichtung von Taskwechseln, 
relevante Zustfinde auch als solche anzusehen, die fur einen 
TaskwechsQl und ein erneutes korrektes Aufsetzen der Datenver- 
arbeitung notwendig sind. 

Bei einem Taskswitch ist somit der Speicher f ttr . Ergebnisse und 
ggf. auch der Speicher fur die Operanden zu sichern und zu ei- 
nem spateren Zeitpunkt, also bei der Rttckkehr zu diesem Task, 
wieder herzustellen. Dies kann vergleichbar zu den PUSH/POP 
Befehlen und Verfahren nach dem Stand der Technik erfolgen. 
Weiterhin ist der Zustand der Datenverarbeitung zu sichern, 
alsd der Zeiger auf die zulstzt vollstandig bearbeiteten Ope- 
randen. Es sei hier besonders auf PACT 18 verwiesen, 

Abhangig von der Optimierung des Taskswitches gibt as bei- 
spielsweise zwei Moglichkeiten: 

a) Die abgebrochene Konf iguration wird neu konfiguriert und 
nur die Operanden werden geladen. Die Datenverarbeitung be- 
ginnt so von neuem, als ob die Bearbeitung der Konfigurati- 
on noch gar nicht begonnen wurde. Mit anderen Wort en werden 
einfach alle Datenberechnungen von vorne an ausgefiihrt, wo- 
bei ggf. Berechnungen bereits zuvor durchgefiihrt wurden. 
Diese MSglichkeit ist einfach, aber nicht effizient. 

b) Die abgebrochene Konfiguration wird neu konfiguriert, wobei 
die Operanden und die bereits berechneten Ergebnisse in die 
jeweiligen Speicher geladen werden ♦ Die Datenverarbeitung 
wird bei den Operanden fortgesetzt, die nicht mehr voll- 
standig berechnet wurden. Dieses Verfahren ist sehr viel 
effizienter, setzt aber voraus, dafi ggf. zusatzliche Zu- 
stande, die wahrend der Verarbeitung der Konf iguration ent- 
stehen, relevant werden, etwa wenn zumindest ein Zeiger auf 
die zuletzt vollstandig verrechneten Operanden gesichert 
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werden muss, damit bei deren Nachfolgern nach erfolgter 
neuer Konf iguration neu aufgesetzt werden kann. 

2,7 Kontext Switch 

Eine besonders bevorzugte Variante zur Verwaltung von relevan- 
ten Daten wird durch den nachfolgend beschriebenen Kontext 
Switch zur Verfiigung gestellt. Bei Task-wechseln und/oder bei 
der Ausfuhrung von Konf igurationen und derem Wechsel (siehe 
beispielsweise Patentanmeldung DE 102 0 6 653,1, die zu Offen- 
barungszwecken vollumf anglich eingegliedert ist) kann es er- 
forderlich sein, Daten oder Zustande, die typischerweise nicht 
zusaminen mit den Arbeit sdaten in die Speicher abgelegt werden r 
da sie beispielsweise lediglich einen Endwert markieren, fur 
eine nachf olgende* Konfiguration zusichern. 

Der erfindungsgemSB bevorzugt implement ierte Kontext Switch 
wird derart durchgef tthrt, dass eine erste Konf iguration ent- 
fernt wird und die zu sichernden Daten in entsprechenden Spei- 
chern (REG) (Speicher, Register, Zahler, etc) verbleiben. 

Dann kann eine zweite Konfiguration geladen werden, diese ver- 
bindet die REG in geeigneter Weise und definierter Reihenfoige 
mit einem oder mehreren globalen Speicher (n). 
.Die Konfiguration kann beispielsweise Adressgeneratoren ver- 
wenden, urn auf den/die globalen Speicher zuzugreifen. Es ist 
also nicht erf orderlich, vorab jeden einzelnen Speicherplatz 
durch den Compiler festlegen zu lassen und/oder auf als Spei- 
cher ausgestaltete REG zuzugreifen. 

Entsprechend der konf igurierten Verbindung zwischen den REG 
werden die Inhalte der REG in einer definierten Reihenfoige in 
den globalen . Speicher geschrieben, wobei die jeweiligen Adres- 
sen von Adressgeneratoren vorgegeben werden. Der Adressgenera- 
tor generiert die Adressen far den/die globalen Speicher (n) 
derart, dass die beschriebenen Speichertoereiche (PU SHARE A) der 
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entfernten ersten Konf iguration eindeutig zugeordnet warden 
kOnnen . 

Es werden somit bevorzugt ftir unt erschiedliche Konf igurationen 
unterschiedliche Adress.enraume vorgesehen. Die Konf iguration 
entspricht dabei einem PUSH gewShnlicher Prozessoren. 

Danach verwsnden andere Konf igurationen die Ressourcen. 

Nun soli die erste Konf iguration wieder gestartet werden. Zu- 
vor wird sine" dritte Konf iguration gestartet, die die REG der 
ersten Konf iguration in einer definierten Reihenfolge mitein- 
ander verbindet. 

Die Konf iguration kann wiederum beispielsweise Adressgenerato- 
ren verwenden um auf den Oder die globalen Speichern zuzugrei- 
fen und/oder um auf als Speicher ausgestaltete REG zuzugrei- 
fen. 

Ein Adressgenerator generiert dabei Adressen bevorzugt derart, 
dass ein korrekter Zugriff auf die der ersten Konf iguration 
zugeordnet e PUSHAREA erfolgt. Die generierten Adressen und die 
konfigurierte Reihenfolge der REG sind derart, dass die Daten 
der REG in der urspriinglichen Ordnung aus den Speichern in die 
REG geschrieben werden. Die Konf iguration entspricht einem POP 
gewohnlicher Prozessoren - 

Nun wird die erste Konf iguration wieder gestartet- 

ZusammengefaBt wird ein.Kontext Switch bevorzugt derart durch- 
gefuhrt, dass durch da3 Laden besonderer Konf igurationen/ die 
&hnlich von PUSH/POP bekannter Prozessorarchitekturen arbei- 
ten, die zu sichernden Daten mit einem globalen Speicher aus- 
getauscht werden. Dieser Datenaustausch uber globale Speicher 
mittels von Push/Pop-Austauschkonf iguationen wird als beson- 
ders relevant angesehen. 
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Die Funktion soli in einem Beispiel verdeutlicht werden: 

Eine Funktion addiert 2 Zahlenreihen, die Lange der Reihen ist 

zur Obersetzungszeit nicht bekannt, sondern erst zur Laufzeit. 

proc example 

•while Klength do 

- a[i] + b[i] 
i - i + 1 



Die Funktion wird nun wahrend ihrer Ausfuhrung unterbrochen, 
beispielsweise durch einen Task-Switch, oder weil der far x 
vorgesehene Speicher voll ist. a,b,x befinden sich zu diesem 
Zeitpunkt erf indungsgemali in Speichern. i und ggf „ length iritts- 
sen jedoch gesichert werden. 

Dazu wird die Konf iguration example terminiert, wobei die Re- 
gisterinhalte erhalten bleiben und eihe Konf iguration push ge- 
startet, die i und length aus den Registern liest und in einen 
Speicher schreibt. 

proc push 

mem[<push_adrj3xample>] = i 
push_adrjaxaiuple++ 
mem[<push_adr_example>] ~ length 

Nach der Ausfuhrung wird push terminiert und die Registerin- 
halte konnen geloscht werden. 

Andere Konf iqur^tionen werden ausgeftlhrr. Nach einiger Zeit 
wird die Konf iguration example wieder gestartet. 
Zuvor wird eine Konf iguration pop gestartet, die die Registe- 
rinhalte wieder aus dem Speicher liest - 

proc pop 

i - mem[<push_adr_exaxnple:>] ' • 
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push_ adr_example++ 

length = mem[<push__adr_example>] 

Nach der Ausfuhrung wird pop terminiert und die Registerinhal- 
te bleiben bestehen. Die Konf iguration example wird wieder ge- 
startet. 

2«8 Algorithmische Optimierung 

Durch das beschriebene Ubersetzungsverf ahren werden Kontroll- 
strukturen von algorithmischen Strukturen getrennt. Beispiels- 
weise zerfallt eine Schleife in einen Rumpf (WHILE) und eine 
algorithmische Struktur (Anweisungen) . 

Die algorithmischen Strukturen lassen sich nunmehr bevorzugt 
optional durch ein zusatzliches, der Trennung nachgeschaltetes 
Werkzeug optiiuieren. 

Beispielsweise kann eine nachgeschaltetes Algebra-Software die 
programmierten .Algorithmen optiiuieren und minimieren. Derarti- 
ge Tools sind z.B, unter Bezeichnungen wie AXIOM, MARBLE, etc, 
bekannt. Durch die Minimierung kann eine schnellere Ausfuhrung 
des Algorithmusses und/oder ein erheblich verringerter Platz- 
bedarf erreicht werden. 

Das Ergebnis der Optimierung wird danach wieder in den Compi- 
ler geftthrt und entsprechend weiterverarbeitet . 
Es soli zudem angemerkt sein, dass modern© Compiler (- 
Frontends) bereits eine Anzahl von Optimierungen fiir Algo- 
rithemen (auch z.T. algebraische) implementiert haben, die 
selbstverstandlich im Rahmen des hier beschriebenen Verfahrens 
weiterhin nutzbar sind. 

Es soli ausdrttcklich erwahnt sein, dass die beschriebenen Ver- 
fahren, insbesonder'e jsdoch .die Abschnitte 2-2.7 "Umgang mit 
Zeit" und 2.3 ."Makros" auch auf Compiler nach PACT20* angewen- 
det warden kannen- PACT 2 0 wird diesbezuglich zu Of f enbarungs- 
zwecken vollumf Snglich in diese Patentanmeldung einbezogen. 
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3, Anwendbarkeit fur ProzessorQn nach. dem Stand der Tectmik, 
insbesondere mit VLXW-Architektur 

Es soli besonders angemerkt werden, daB anstatt einer PAE- 
Matrix auch eine Anordnung von arithmetisch logischen Einhei- 
ten nach .dem Stand der Technik (ALUs) r wie beispielsweise in 
VLIW-Prozessoren tiblichr und/oder eine Anordiiung von komplet- 
ten Prozessoren, wie beispielsweise in Multiprozessorsysteiuen 
iiblich, verwendet werden kann. Ein Sonderfall stellt dabei die 
Verwendung einer einzelnen ALU das, sodaB das Verfahren auch 
fQr normals CPUs verwendbar ist. 

In der Dissertation [Referenz Dissertation Armin NttckelJ wurde 
ein Verfahren entwickelt, das die Ubersetzung der WHILE- 
Sprache in semantisch korrekte endliche Automaten exmoglicht. 
Daruber hinaus kann ein endlicher Automat als "Unterprogramm Tf 
verwendet werden und umgekehrt. Dadurch entsteht die Moglich- 
keit, eine Konf iguration auf unterschiedliche Implement ie- 
rungstechnologien abzubilden, wie z.B. CPUs; symmetrische Mul- 
tiprozessoren; FPGAs; ASICs; VPUs. 

Insbesondere ist es moglich, Teilen einer Applikation die je- " 
weils optimal geeignete Hardware zuzuordnen bzw. eine jeweilie 
Eignung zu bestimmen und anhand der iuehr Oder weniger guten 
Eignung die optiiuale Hardware zuzuordnen. Dabei sind bevorzugt 
auch temporare Res sour cenverteilungen und -reservierungen er- 
faBbar. Mit anderen Wbrten wurde beispielsweise eine Daten- 
fluBstruktur einer Datenf luBarchitektur zugeordnet werden, 
wahrend eine sequentielle Struktur auf einen Sequenzer abge- 
bildet wird, sofern diese vorhanden und/oder- verfugbar sind. 

Die entstehende Problemstellungen der Ressourcehzuweisungen 
fur die einzelnen Algorithmen konnen z.B. durch- einen "Job As- 
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s.ignment T '--Algorithmus zur Verwaltung der Zuordnung gelost wer- 
den. 

4 . Xmplemen-bxerung 

Die Implement ierung eines erf indungsgemajien Compilers soil von 
eine "normalen" sequentiellen Pr'ogranuniersprache ausgehen, al- 
so s,B. C oder Pascal. Diese Sprachen weisen die Eigenschaft 
auf , dass durch ihren sequentiellen Charakter eine zeitliche . 
Abfolge implizit und ktinstlich durch die Sprachendef inition an 
sich generiert wird. 
Beispiel A: 
Zeile 1: i++ • 
Zeile 2: a = i * b 
Zeile 3: x p - a 
Zeile 4: j « i * i 

Durch die Sprachdef inition ist fest vorgegeben, dass Zeile 1 
vor Zeile . 2 vor Zeile 3 vor Zeile 4 ausgeftihrt wird. Aller- 
dings kSnnte Zeile 4 auch direkt nach Zeile 1 ausgeftihrt wer- 
den und somit parallel zu Zeile 2 und 3 bearbeitiet werden. 

Mit anderen Worten werden durch sequentielle Sprachen weitere 
kiinstliche und nicht algorithmisch bedingte Zustande einge- 
baut. Wichtig ist lediglich die korrekte zeitliche Abfolge der 
Berechungen in Beispiel A. Zeile 4 darf erst berechnet werden, 
wenn i korrekt definiert ist, also nach der Abarbeitung von 
Zeile 1. Auch Zeile 2 darf erst nach der korrekten' Definition 
von i (also nach der Abarbeitung von Zeile 1} verarbeitet wer- 
den. Zeile 3 benStigt die Ergebnisse von Zeile 2 (die Variable 
a) und darf daher erst nach derer korrekten Definition berech- 
net werden. Somit ergibt sich eine Datenabhangigkeit aber kei- 
ne besonderen Zustande. 



Anhand der Datenabhangigkeiten der Variable a in Zeile 2 und 3 ■ 
(Zeile 3 verwendet a als Operand, a ist das Ergebnis von Zeile 
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2) kann automatisch durch den Compiler folgende Transformation 
zux Representation der Parallelisier- bzw. Vektorisierbarkeit 
(ParVec-Transf ormation) durchgeftihrt werden: 

Zeile 2: VEC{a = i * b; 
Zeile 3: x = p - a) 

VEC bedeutet, dass jeder durch f ; f getrennte Ausdruck nachein- 
ander abgearbeitet wird r wobei die AusdrQcke innerhalb der ge- 
schweiften Klammern grundsatzlich gepipelinet werden konnen. 
Bevorzugt miissen samtliche Berechnungen am Bnde von VEC{ } 
durchgeftihrt und abgeschlossen sein r damit die Datenverarbei- 
tung hinter VEC fortgesetzt wird. 

Besser wird in einer internen Representation der DatenstruktU- 
ren im Compiler die beiden Berechnungen als ein Vektor mar- 
kiert : 

VEC{a=i*b; x-p-q} 

Zeile 4 ergibt einen einfachen Vektor: 
VEC{j - i*i} 

Da sich Zeile 4 gleichzeitig zu Zeile 2 und 3 berechnen lasst 
kann die Parallel it&t folgendermassen ausgedrtickt werden: 

PAR{{VEC{a=i*b; x=p-a} ; VEC{ j=i*i} } 

PAR bedeutet, dass jeder durch '{--}' getrennte Ausdruck zeit^ 
gleich abgearbeitet werden kann. Bevorzugt miissen s&mtliche 
Berechnungen am Ende von PAR{ } durchgeftihrt und abgeschlossen 
sein, damit die Datenverarbeitung hinter PAR fortgesetzt wird. 

wire} Zeile 1 mit einbezogen, ergibt sich: 
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VEC{i++; PAR{ {VEC{a-i*b; x=p-a} }{VEC{ j=i*i.} } } } 

Da VEC{'j=i*i} ein Vektor mit nur einem Element darstellt, kann 
auch wir folgt geschrieben werden: 

VEC{i++; PAR{{VEC{a=i*b; x«p-a} } { > } 



Ein weiteres Beispiel zeigt einen echten Zustand. 

Beispiel B: 

Zeile 1: i++ 

Zeile 2: a = i * b 

Zeile 3: if a < 100 { 

Zeile 4: x = p - a 

Zeile S: } else { 

Zeile 6: j - i * i } 

Jetzt kann Zeile 6 nur noch nach der Berechnuhg von Zeile 2 
und Zeile 3 ausgefiihrt werden. Die Berechnung von Zeile 4 und 
6 findet alternativ statt. Also ist der Zustand von Zeile 3 
fur die weitere Datenverarbeitung relevant (relevanter Zu- 
stand) . 

Bedingte Zustande konnen bei einer Transformation durch IF 
ausgedruckt werden: 

Zeile 1-2: VEC{i++; a=i*b} 
Zeile 3 
Zeile 4 
Zeile 6 



IF{ {a<100}{zeile4} {zeile6} } 
VEC{x=p-a} 
VEC{j=dL*i> 



Zusammengefafit ergibt das 

VEC{i++ r - a=i*b; IF{{a<100}{VEC{x«p^a}}{VEC{j=i*i}}}} 
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Weitere relevante Zustande werden durch Schleifen erzeugt: 
Beispiel C: 

Zeile 1: for (i = 1, i'< 100, 

Zeile 2: a = a * i 

Zeile 3: q = p / a * 

Zeile 3 darf erst ausgefuhrt werden, nachdem die Schleife ter 
miniert ist. Also bestehen bei bedingten Spriingen relevante 
Zustande. 

■> 

Eine erste Transformation der Schleife ergibt: 
Zeile 1: i=i ; 

Zeile 2: loop: if i >= ioo then exit 
Zeile 3: . a ■= a * i 

Zeile 4: i++ 
Zeile 5: jump loop 

Zeile 6: exit: q = p V a 

Zeile 3 und 4 konnen parallel berechnet werdsn, da Zeile 4 
nicht vora Ergebnis von Zeile 3 abhangt:" 

PAR{ <a=a*i} {i++} } 

Zeile 5 ergibt einen VeJctor mit dem generierten PAR, da erst 
nach vollstandiger Berechnung der Werte wieder in die Schleife 
gesprungen werden darf (hier liegt also eine zeitliche Abhan- 
gigkeit vor) . 

VEC{PAR{{a-= a *i} fi+i . }> ; jump loop} 
Somit ergibt sich ftir die Bedingung; 

loop: lF<{i>=10p}{jump exit } {VEC{ PAR{ { a=a*i} { i++} } ; jump 
loop}}) 
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Die Zeile 1 ist ein Vektor mit der Bedingung, da die'se vor der 
Bedingung ausgefuhrt werden muss (IF verwendet i als Operand, 
i ist das Ergebnis von Zeile 1) . 

Zeile 6 ist wiederum ein Vektor mit der Bedingung, da a als 
' Operand verwendet wird und a das Ergebnis der Bedingung ist. 

Sorait ergibt sich (in ubersichtlicher Schrsibweise) : 
VEC{ 

i++; 

loop: IF{ 

{i>=100} 
{jump exit) 
{VEC{ 

PAR{ 

{a=a*i} 
(i++> 

}; 

jump loop 

> . " 

} 

}; 

exit : q=p/a 

) 

Die Inhalte von VEC{} und FARU kQnnen als rein kombinatori- 
sche Netze betrachtet werden. 

Bevorzugt wird VEC und PAR ale Petri -Netz ausgestaltet, urn wie 
bevorzugt die Weiterverarbeitung nach kompletter Verarbeitung 
der jeweilgen Inhalte zu steuern. 

Durch die mogliche Betrachtung von VEC und PAR als rein kombi- 
natorisches Netz entsteht die Notwendigkeit den Schleifenzu- 
stand zu sichern. D,h. in diesem Pall ist es tatsachlich not- 
wendig einen endlichen Autoroaten 2u schaffen. • 
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Die Anweisung REG{ } speichert dazu Variablen in einem Regi- 
ster. Somit entsteht durch die Verwendung der kombinatorischen 
Netze VEC und PAC in Verbindung mit dem Register REG ein end- 
licher Automat, der exakt entsprechend des Algorithmus aufge- 



baut ist: 
VEC{ 

i++; 

loop: IF{ 

{i>=100} 
{jump exit} 
fVECf 

PAR{ 

{a=a*i} 
{!++} 

}; 

jump loop 
} 

} 

}/ 

exit: q=p/a 

> 



Es soli besonders darauf hingewiesen werden, dass in' der V PO 
Technologic des Anmelders (vgl. PAC T2l) Ein- und/oder Aus- 
gangsregister an den PAEs vprgesehen sind und die zeitliche 
Korrektheit und die Verfugbarkeit von Daten durch ein inte- 
griertes Handshake-Protokoll (RDY/ACK) sichergestellt ist. In- 
soweit Wird die Forderung bevorzugt beim Verlassen von VEC{) 
Oder PAR{> deren interne Datenverarbeitung abgeschlossen zu 
haben automatisch fur alle nachfolgend verwendeten veriablen 
erfullt (vare die Datenverarbeitung nicht beendet, warden 
nachfolgende Berechnungsschritte auf die Beendigung und das 
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Eintref fen der Daten warten) . Durch die integrierten Register 
sind auch schwingende Ruckkoppiungen ausgeschlossen. 

Insoweit ist nachf olgender Term fur diese Technologie korrekt: 
VEC{PAR{{a=a*i}{i++}},- jump loop} 

Fur andere Technologies die die o.g. Ausgestaltungen nicht 
oder nur teilweise aufweisen, sollte der Terra folgendermassen 
formuliert werden: 

VEC{PAR{{a=a*i}{i++}}; REG{ a; i } ; jump loop} 

Es soil darauf hingewiesen werden, dass diese Form auf jeden 
Fall auch in der VFU-Technologie des Anmelders zu einer kor- 
rekten und optimalen Abbildung des Algorithmus auf den rekon- 
f igurierbaren Prdzessor fuhrt. 

REG kann innerhalb der kombinatorischen Netze VEC. und PAR ver- 
wendet werden. Streng betrachtet verlieren dadurch VEC und PAR 
die Eigenschaft der kombinatorischen Netze. Abstrakt kann je- 
doch REG als ein komplexes Element (REG-Element) eines kombi- 
natorischen Netzes betrachtet werden, dem eine eigene Abarbei- 
tungsseit zugrunde liegt. Die Bearbeitung der nachf olgenden 
Elemente wird vom der Beendigung der Berechnung des REG- 
Element es abhSngig gemacht. 

In dem Bewusstsein dieser begriff lichen Ungenauigkeit wird ei- 
ne Verwendung von REG innerhalb von VEC und PAR im Weiteren 
zugelassen und ist insbesondere auch notwendig. 

Wie bereits vorstehend erwahnt, ist die Verwendung von REG ty- 
pis.cherweise innerhalb einer- Konfigurat ion einer VPU des An- 
melders nicht erforderlich, sondern e K pli 2it i^ner nur dann, 
wenn die Berechnungsergebnisse einer Konf iguration abgespei- 
chert werden, sodass REG ein diesem Anwendungsfall tatsachlich 
dem expliziten Register eines endlichen Automaten entspricht. 
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Neben der Synthese von endlichen Automaten ftir Schleifen, sind 
insbesondere in einem weiteren Fall endliche Automaton erfor- 
derlich: 

1st ein Algorithmus zu grofi, um komplett innerhalb der PAEs 
eines rekonf igurierbaren Prozessors abgearbeitet zu werden, 
mall er in mehrere Teilalgorithmen zerlegt werden- Jeder Tei- 
lalgorithmus stellt eine Konf iguration fiir den rekonf igurier- 
baren Prozessor dar. Nacheinander, also sequentiell, werden 
die Teilalgorithmen auf den Prozessor konf iguriert, wobei die 
Ergebnisse der jeweils vorhergehenden Konf iguration (en) fttr 
die jeweils neue Konf iguration als Operanden dienen. 

Mit anderen Worten entsteht duxch die Rekonf iguration ein end- 
licher Automat, der zu einem Zeitpunkt t Daten bearbeitet und 
speichert und zu einem Zeitpunkt t-KL, moglicherweise nach ei- 
ner Konf iguration, die gespeicherten Dateri ggf- anders verar- 
beitet und wieder speichert. Wesentlich ist, dass t nicht im 
klassisohen Sinn durch Takte oder Befehle def iniert wird, son- 
dern durch Konf igurationen, Hierzu sein besonders die Presen- 
tation Prozessormodell (PACT, Oktober 2000, San Jose) referen- 
ziert. 

Mit noch anderen Worten besteht eine Konf iguration aus einem 
kombinatorischen Netz aus VEC und/oder PAR, dessen Ergebnisse 
gespeichert werden (REG) , um in der nachsten Konf iguration 
weiterverwendet zu werden: 

Konfiguration 1: VEC{Operands; {VEC | PAR) ; REG {Result si }} 
Konf iguration 2 : VEC { Result si ; { VEC | PAR} ; REG { Results2 } ) 

Zum einfacheren Verstandnis haben die obigen Beispiels und Be- 
schreibungen die Konstrukte VEC, PAR und REG in der Hochspra- 
chen eingerahrr und diese dadurch strukturiert /'Typischerweise 

40 



.6-RUG-2002 23:03 



PflT^fiNW. P. PIETRUK 



3 721 469308 S 



und bevorzugt wird diese Strukturierung erst aber auf der Ebe- 
ns der Zwischensprache (siehe Principles of Compiler Design 
(Red Dragon) , Aho, Sethi, Ullmann) eingefuhrt. 

Es soil besonders darauf hingewiesen werden, dass die Struktu- 
rierung von Algorithiuen mit VEC, PAR und REG typischerweise 
vollkommen automatisch durch den Compiler durch Methoden wie 
z.B. Graphenanalyse durchf tihrbar ist. 

Insbesondere ist es aber auch denkbar und teilweise von Vor- 
teil dem Programmierer selbst die Strukturierungsmoglichkeit 
in der Hochsprache dadurch zu ermoglichen, dass VEC, PAR und 
REG wie oben aufgezeigt direkt in der Hochsprache beschreibbar 
sind. 

GgnegjLaarancr 

.Die automat ische Erstellung vc?n VEC, PAR und REG kann auf un- • 
terschiedlichen Ebenen einen Compilierungsvorganges durchge- 
fuhrt warden. Die zunachst einleuchtendste ist wahrend eines 
Praprozessor-Durchlaufes auf Basis des Source-Codes wie in den 
vorigen Beispielen beschrieben. Fur die weitere Compilierung 
ist danach allerdings ein speziell angepasster Compiler erfor- 
derlich. 

Ein weiterer Aspekt ist, dass Compiler zumeist automatische 
Optimierungen von Code vornehmen (z.B. in Schleif en) « Eine ef- 
fiziente Zerlegung des Codes ist daher erst nach den Optimie- 
rungslaufen -sinnvoll, insbesondexe wenn Compiler (wie z.B, 
SUIF, Univeraitat Stanford) bereits den Code fur Parallelisi- 
serung und/oder Vectorisierung hin optimieren. 

Die daher besonders bevorsugte Methode ist die Einbindung der 
Analysen in das Backend eines Compilers. Das Backend ubersetzt 
eine compilerinterne Datenstruktur auf die Befehle eines Ziel- 
prozessors . ; , 
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Als compilerinterne Datenstrukturen werden zumeist Zeiger- 
strukturen wie DAGs/GAGs, Trees oder 3-Adress -Codes verwendet 
(siehe Principles of Compiler Design (Red Dragon), Aho, Sethi, 
Ollmann) • Teilweise werden auch Stack-Machine-Codes verwendet 
(siehe Compiler selbstgeschneidert, C'T 1986 1-5). Da die Da- 
tenformate prinzipiell Equivalent sind und ineinander trans- 
formiert werden konnen, setzt die erf indungsgemaB bevorzugte 
Methode auf der Weiterverarbeitung von Graphen f wie bevorzugt 
Trees, auf. 

Datenabhangikeiten und mogliche Parallelitaten entsprechend 
deiu vorstehend beschriebenen Verfahren sind innerhalb von 
Trees einfach auf Basis der Struktur automatisch zu erkennen, 
Hiersu k5nnen beispielsweise' bekannte und etablierte Verfahren 
der Graphenanalyse eingesetzt werden. Alternativ oder optional 
kann durch entsprechend adaptierte Parsingiuethoden ein Algo- 
rithmus auf Datenabhangikeiten, Schleifen, Spriinge etc. hin 
untersucht werden. Dabei kann ein Verfahren ahnlich dem der 
Auswertung von Ausdrtlcken in Compilern verwendet werden. 

Abbildung- 

Die weitere Transformation des Algorithmus ist nunmehr stark 
von der Zielarchitektur abhangig. Beispielsweise bietet die 
Prozessorarchitektur des Anmelders (VPU, XPP) automatische Da- 
tensynchronisation in Hardware. Das bedeutet, dass die korrek- 
te zeitliche Abfolge von Datenabhangigkeiten automatisch in 
der Hardware gehandhabt wird. Andere Architekturen benotigen 
zum Teil zusatzlich die Synthese geeigneter Zustandsmaschinen 
fur die Steuerung es Datentransfers. 

Besonders interessant ist die Handhabung bedingter Spriinge. 
Beispielswiese stellt die Prozessorarchitektur des Anmelders 

i 
I 

i 
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mehrere Mechanisiuen zu derer Abbildung und Ausfiihrung zur Ver- 
f iigung : 

1- Rekonf iguration des Prozessors oder Teilen des Prozessgrs 
durch eine ubergeordnete Konf igurationseinheit (vgl. Patentan- 
meldung(en) PACT01, 04, 05, 10, 13, 17.) 

2. Auswalzen der Funktion in das Array aus PAEs (vgl. Pa- 
tentanmeldung PACT08 ) , dabei werden z.B. beide moglichen Zwei- 
ge eines Vergleiches zugleich auf das Array abgebildet. 

3. Wave Rekonf iguration nach Patentanmeldung (en) PACT 08, 13 r 
17), dabei wird den unterschiedlich zu bearbeitenden Daten ein 
Token mitgegeben, das die jeweils gtiltige Konf iguration wahlt. 

Es soli erwShnt sein, dass der Mechanismus 1 der allgemein ty- 
pisch anzuwendende Fall ist. Der Mechanismus 2 ist bereits bei 
den meisten Technologien sehr aufwendig oder gar nicht imple- 
mentierbar und der Fall 3 ist bislang nur aus der VPU- 
Technologie des Anmelders bekannt. 

Die jeweils zu wahlende Ausftihrungsmethode hangt von der Kom- 
plexitat des Algorithmus, dem erforderlichen Datendurchsatz 
(Performance) und der exakten Ausgestaltung des Zielprozessors 
ab (z.B. Anzahl der PAEs) . 
Beispiele: 

Ein einfacher Vergleich soil folgendes Berechnen: 
if i < 0 then a=a*(-i) else a=a*i 

Eine Rekonf iguration des Prozessors (Mechanismus 1) je nach 
Ergebnis des vergleichs scheint wenig sinnvoll zu sein- 
Daa Auswalzen balder Zwoigo in das Array (Mechanismus 2) ist 
Grundsatzlich moglich. Je nach Ergebnis des Vergleichs "werden 
entweder die a=a* (-i) oder a=a*i berechnenden PAEs angesteuert 
(vgl. PACT08) . 

Besonders platzef f izient ist das Oberlagern der beiden Berech- 
nungen (Mechanismus 3), wodurch nach dem Vergleich unabhangig 
vom Ergebnis dieselbe (n) FAEs/ciie Daten weiterverarbeiten, die 
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Daten aber mit einem Token versehen sind, das sodann in Abhan- 
gigkeit vom Vergleich lokal in den jeweils nachfolgenden die 
Daten verarbeitenden PAEs entweder die Funktion a=*a*(-i) oder 
a=a*i auswahlt. (vgl. PACT08, 13, 17). 

Nach Mechanismus 1 entsteht ein global relevanter Zustand, da 
die komplette folgende Konf iguration davon abhangig 1st. 

Nach Mechanismus 2 und 3 entstehen nur ein lokal relevanter 
Zustand, da dieser ttber die Berechnung hinaus - die vollstan- 
dig implement iert ist - nicht mehr benotigt wird. 

Mit anderen Worten kann die lokale oder globale Relevanz von 
Zustanden auch von der gewahlten Abbildung auf die Prozessor- 
architektur abhangen, 

Ein Zustand der Ober eine Konf iguration hinaus und somit Ciber 
das kombinatorische Netz des eine Konf iguration rep resent ie- 
renden endlichen Automaten hinaus relevant ist (also von nach- . 
folgenden endlichen Automaten benotigt wird) r - kann grundsatz- 
lich als global betrachtet werden, Es soil nochmals auf die 
verwendete diffuse Terminologie des Begriffes kombinatorisches 
Netz hingewiesen werden. 



Bef ehlsmociell des entstandeaen Prozessora 

Entsprechend der vorliegenden Erfindung entsteht ein Prozes- 
sormodell fur rekonf igurierbare Prozessoren, das alle wesent- 
lichen Befehle umfaBt:. 

Arithmetisc:ti/loc?ische Befehle werden airekt ±n das kombinato- 
rische Netz abgebildet. 

Sprunge (Jump/Call) werden entweder direkt in das kombinatori- 
sche Netz ausgewalzt oder durch Rekonf iguration realisiert. 
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Bedingung und Kontrollflufibef ehle (if, etc) 'werden entweder im 
kombinat oris chen Netz vollstandig aufgelost und bearbeitet 
oder an eine iibergeordnete Konf igurationseinheit weitergelei- 
tet, "die sodann entsprechend des entstandenen Status eine Re- 
konf iguration durchftihrt. 

Load/ Store-Operationen werden bovorzugt in separate Konf igura- 
tionen abgebildet und durch Adressgeneratoren ahnlich den be- 
kannten DMA's realisiert, die internen Speicher (REG{ } ) mit- 
tels Adressgeneratoren in externe Speicher schreiben oder die- 
se von externen Speichern und/ oder Peripherie laden- Sie k5n- 
nen aber auch susammen mit der datenverarbeitenden Konfigura- 
tion ko.nf iguriert seih und arbeiten. 

Register-Move-Operationen werden im kombinatorischen Netz 
durch Busse zwischen den internen Speichern (REG{ } ) reali- 
siert . 

Push/ Pop-Operat ionen werden durch separate Konf igurationen 
realisiert, die ggf . bestimmte interne Register im kombinato- 
rischen Netz und/oder die internen Speicher (REG{ } ) mittels 
Adressgeneratoren in externe Speicher schreiben oder aus ex- 
ternen Speichern lesen und die bevorzugt vor oder nach den ei- 
gentlichen datenverarbeitenden Konf igurationen ausgefuhrt wer- 
den - 

5, BeschLreibung der Figuran 

Die nachfolgenden Figuren zeigen Implement ie rungs- und Ausge- 
staltungsbeispiele des Compilers. 

Fig-ur la zeigt den Aufbau eines gew5hnlichen endlichen Automa- 
te^ bei welchem ein kombinatorisches Netz (0101) mit einem 
Register (0102) verkniipft ist. Daten konnen direkt an 0101 
(0103) und 0102 (0104) geftihrt werden. Durch eine Ruckkopplung 
(0105) des Registers auf das kombinatorische Netz ist die Ver- 
arbeitung eines Zustandes in AbhSngigkeit des /der vorhergehen- 



^-RUG-2002 23:04 PRT^MUI, P. PIETRUK 



[9 721 469308 S. 



.den Zustande moglich- Die Verarbeitungsergebnisse werden durch 
0106 dargestellt. 

Fignr lb zeigt eine Representation des endlichen Automaten 
durch eine rekonf igurierbare Architektur nach PACT01 und 
PACT04 (PACT 04 Fig, 12-15) . Das kombinatorischen Nets aus Fi- 
gur la (0101). wird durch eine Anordnung von PAEs 0107 ersetzt 
(0101b) . Das Register (0102) wird durch einen Speicher (0102b) 
ausgefuhrt, der iuehrere Zyklen speichern kann. Die RCLckkopp- 
lung gemaB 0105 erfolgt durch 0105b. Die Eingange (0103b bzw. 
0104b) sind Equivalent 0103 bzw 0104. Der direkte Zugriff auf 
0102b kann ggf- durch einen Bus durch das Array 0101b reali- 
siert werden. Der Ausgang 0106b ist wiederum Squivalent 0106. 

Flgur 2 zeigt die Abbildung eines endlichen Autoiuaten auf eine 
rekonfigurierbare Architektur. 0201 (x) represent ieren das kom- 
binatorische Netz (das entsprechend Figur lb als PAEs ausge- 
staltet sein kann). Es existieren ein Oder mehrere Speicher 
fur Operanden (0202) und ein oder mehrere Speicher ftir Ergeb- 
nisse (0203) . Zusatzliche Daten Ein-/Ausgange gem. 0103b, 
0104b, 010 6b) sind der Einfachheit halber nicht dargestellt. 
Den Speichern zugeordnet ist jeweils ein Adressgenerator 
(0204 r 0205) . 

Die Operanden- und Ergebnisspeicher (0202, 0203) sind physika- 
lisch oder virtuell derart miteinander verkoppelt, dafi bei- 
spielsweise die Ergebnisse einer Funktion bzw, einer Opera- 
tion einer anderen als Operanden dienen konnen und/oder sowohl 
Ergebnisse als auch neu zugeflthrtQ Operanden einer Funktion 
einer anderen als Operanden dienen konnen. Eine derart ige 
Kopplung kann beispielsweise durch Bussysteme hergestellt wer- 
den oder durch eine (Re) Konf iguration durch welche die Funkti- 
on und Vernetzung der Speicher mit den 02Q1 neu konfiguriert 
wird. 
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Figux 3 zeigt verschiedene Aspekte zum Umgang mit Variablen. 
In Figur 3a zeigen 0301, 0302, 0303 verschiedene Stufen der 
Berechnung. Diese Stufen konnen rein kombinatorisch oder auch 
viber Register voneinander getrehnt sein. fl, f2, f3 sind Funk 
tionen, xl ist eine Variable gema.ll Patentbeschreibung. 
Pigur 3b zeigt die Verwendung. einer Variablen xl in der Funk- 
tion xl := xl + 1. 

Pigur 3e zeigt das Verhalten eines endlichen Automaten zur Be- 
rechnung von xl xl + 1 innerhalb einer Konfiguration. In 
der nachsten Konfiguration sind 0306 und 0304 zu vertauschen 
urn einen vollstandigen endlichen Automaten zu erhalten. 0305 
reprasentiert die Adressgeneratoren fur die Speicher 0304 und 
0306. 

Pigur 4 zeigt Implementierungen von Schleifen. Die schraffier- 
ten Module konnen durch Makros generiert warden (0420, 0421) . 
0421 kann auch durch Analyse des Graphen auf unverzdgerte 
RUckkopplungen eingefugt werden. . 

Figur 4a zeigt die Implenientierung einer einfachen Schleife 
der Art 
WHILE TRUE DO 

xl :=* xl + 1; 

Im Kern der Schleife liegt der Zahler +1 (0401). 0402 ist ein 
Multiplexer, der zu Beginn den Startwert von xl (0403) auf 
0401 fuhrt und sodann bei jeder Iteration die Ruckkopplung 
(0404a, 0404b) bewirkt. In die Ruckkopplung ist ein Register 
(vgl. REGO) (0405) eingesetzt, um ein® unverzdgerte und damit 
unkontrollierte Ruckkopplung des Ausgangs von 0401 auf dessen 
Eingang zu verhindern. 0405 wird mit dem Arbcitstakt der VPU 
getaktet und bestimmt damit die Anzahl der Iterationen pro 
Zeit. Der jeweilige Zahlerstand ware an 0404a oder 0404b ab- 
greifbar. Je nach Definition der Hochsprache terminiert die 
Schleife jedoch nicht. Beispielsweise ware in einer HDL (nach 
dem Stand der Technik (s.B. v H DL, Verilog) das Signal auf 0404 
nutefoar, wahrend es in einer sequentiellen Frogrammierspra<ihe 
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(z.B. C) 0404 nicht nutzbar ist, da die Schleife nicht tercui- 
niert und somit keinen Exit -Wert liefert. 

Der Multiplexer 0402 realisiert ein Makro, das aus dem Schlei- 
fenkonstrukt ent^tanden ist. Das Makro wird durch die Uberset- 
zung von WHILE instantiiert . 

Das Register 0405 ist ehtweder ebenfalls Teil des Makros oder 
wird entsprechend einer Graphenanalyse nach dem Stand der 
Technik exakt dann und dort eingeftigt, wo eine unverzogerte 
Riickkopplung existiert, urn so die Schwingneigung auszuschal- 
ten. 

Figur 4b zeigt den Aufbau einer echten Schleife der Art 
WHILE xl < 10 DO 
xl := xl + 1; 

Der Aufbau entspricht im Kern der Figur 4a f weshalb dieselben 
Referenzen verwendet wur den • 

ZusStzlich ist eine Schaltung dargestellt, die die Gultigkeit 
des Ergebnisses kontrolliert (0410) und das Signal von 0404a 
nur dann ari : die nachf olgenden Funktionen (0411) weiterleitet, 
wenn das Abbruchkriterium der Schleife erreicht ist. Das Ab- 
bruchkriterium wird durch den Vergleich xl < 10 festgestellt 
(Vergleichsstuf e 0412). Als Ergebnis des Vergleiches wird das 
betreffende Statusflag (0413) an ein Multipliziermittel 0402 
zur Steuerung der Schleife und die Funktionen 0411 zur Kon- 
trolle der Ergebnisweiterfiihrung geleitet. Das Statusflag 0413 
kann beispielsweise durch Trigger geiuaB DE 197 04 728.9 imple- 
mentiert sein. Ebenfalls kann das Statusf lagmittel 0413 an ei- 
ne CT gesendet werden, die daraufhin die Terminierung der 
Schleife erkennt und eine Rekonf iguration durchfahrt. 

Figur 5a zeigt die iterative Berechnung von 
FOR i:=l TO 10 

xl := xl * xl; 

Iiu wesentlichen entspricht die Grundfunktion Figur 4b, weshalb 
die Referenzen ttbernommen wurden. Der Funktionsblock 0501 be- 
rechnet die Multiplikatrion.' Die FOFv-Schleif e wird durch eine 

48 



LG-ftUG-2002 23:04 PQ^PHW. P. PIETRUK ^^+43 721 469308 S.56 



weitere Schleife entsprechend Figur 4b implementiert und ist 
lediglich durch Block 0503 angedeutet. Block' 0503 liefert den 
Status des Vergleiches auf das Abbruchkriterium. Der Status 
wird direkt zur Ansteuerung der Iteration verwendet, wodurch 
das Mittel 0412 (dargestellt durch 0502) weitgehend entfallt. 



Figur 5b zeigt das Auswalzen der Berechnung von 
FOR TO 10 

xl := xl * xl; 

Da die Anzahl der Iterationen zur Ubersetzungszeit exakt be- 
kannt ist, kann die Berechnung in eine Folge von i Multipli- 
zierern (0510) abgebildet werden. 



Figur 6 zeigt die Ausfuhrung einer WHILE-Schleif e gem. Figur 
4b Ober iaehrere Konf igurationan, Hier ist der Zustand der- 
Schleife (0601) ein relevanter Zustand, da dieser die Furiktion 
in den nachf olgenden Konf igurationen maJJgeblich beeinflufit. 
Die Berechnung erstreckt sich uber 4 Konf igurationen (0 602, 

0603, 0604, 0605) . Zwischen den Konf igurationen werden die Da- 
ten in Speichern (vgl. REG{ } ) abgelegt (0606, 0607)* 0607 er- 
setzt dabei ebenfalls 0405. 

Als ein Rekonf igurationskriteriura kann der Ftillstand der Spei- 
cher dienen, angedeutet tiber 0606, 0607: Speicher voll/leer 
und/oder 0601, das den Abbruch der Schleife anzeigt. Mit ande- 
ren Worten werden durch den Fiillstand der Speicher Trigger ge- 
neriert (vgl. FACT01, PACT05, FACTO 8, PACT10) , die an die Kon- 
f igurationseinheit gesendet werden und eine Rekonf iguration 
auslosen. Auch der Zustand der Schleife (0601) kann an die CT 
gesendet werden- Daraufhin kann die CT bei Erreichen des Ab- 
bruchkriteriums die nachf olgenden Algorithmen konf igurieren, 
bzw. ggf . zun&chst die restlichen Teile der Schleife (0603, 

0604, 0605) abarbeiten und danach die nachf olgenden Konfigura- 
i tionen laden - 
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6 , g^rallelxsierbagkeit. 

Figur 6 zeigt potentielle Grenzen der Parallelisierbarkeit 
auf. 

Sofern die Berechnung der Operanden unabhangig von der Rtick- 
kopplung 0608 ist, kann die Schleife blockweise, d.h- jeweils 
durch Fallen der Speicher 0606/0607 berechnet werden, Dartiit 
wird ein hoher Grad an Parallelitat erreicht. 

Sofern die Berechnung eines Operanden abhangig von dem Ergeb- 
nis der vorherigen Berechnung ist, also eine Ruckkopplung oder 
dergleichen 0 6Q8 in die Berechnung einflieBt, wird das Verfah- 
ren inef f izienter, da jeweils nur ein Operand innerhalb der 
Schleife berechnet werden kann. 

Ist der nutzbare ILP (Instruktionslevel Parallelismus) inner- 
halb der Schleife hoch und die Zeit fur die Rekonf iguration 
nieder (vgl. PACT02, PACT04, PACTX3, PACT17) , kann eine auf 
PAEs ausgewalzte Berechnung auf einer VPU weiterhin effizient 
sein. 

Ist dies nicht der Fall, ist es sinnvoll, die Schleife auf ei- 
ne sequentielle Architektur (vgm PA separater Prozessor oder 
Implementierung innerhalb des PA entsprechend DB 196 51 075.9- 
53, DE 196 54 846.2-53 und insbesondere DE 199 26 538.0 (Fig. 
5, 11, 16, 17, 23, 30,, 31, 33)) abzubilden. 

Die Analyse der Berechnungsseiten kann entweder ixtv Compiler 
zur tfbersetzungszeit gemafi dem nachf olgenden Abschnitt erfol- 
gen und/oder empirisch zu der oder einer Laufzeit gemessen 
werden, urn eine nachtragliche Optimierung herbeizuf iihren, was 
zu einem lernfahigen, insbesondere selbstlernenden Compiler 
ftthrt. 

i 
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Fur die Erfindung sind Analyse- und Parallelisierungsverfahren 
von Bedeutung. 

Vsrschiedene Verfahren nach dem Stand der Technik stehen fur 
die Analyse und Durchfuhrung der Parallelisierung zur Verfti- 
gung. 

Ein bevorzugtes Verfahren soli im Folgenden beschrieben wer- 
den- 

Abzubildende Funktionen werden durch Graphen dargestellt (vgl. 
PACT13,^ DE 193 26 538.0), wobei sine Applikation aus beliebig 
vielen unterschiedlichen Funktionen zusammengesetzt sein kann. 
Die Graphen Werden auf die in ihnen enthaltene Parallelitat 
untersucht, wobei vorab samtliche Methoden der Optimierung zum 
Einsatz kommen kSnnen. 

Beispielsweise sollen folgende Untersuchungen durchgefuhrt 
werden: 



6.0.1 IL P (Instruction Level Parallelism) 

ILP drtickt aus, welche Befehle zeitgleich ausgeftihrt werden 
konnen (vgl. PAR{}). Eine derartige Analyse wird auf Basis der 
Betrachtung von Abhangigkeiten von Knoten in einem Graphen 
einfach moglich. Entsprechende Verfahren sind nach dem Stand 
der Technik und in der Mathematik per se hinreichend bekannt, 
es so11 beispielsweise auf VLIW-Compiler und Synthesetools 
verwiesen werden. 

Besondere Beachtung benotigen aber z. B. gegetoenenfalls ver- 
schachtelte bQdingte Ausfiihrungen (IF) r da eine korrekte Aus- 
sage der parallel ausftthrbaren pfade oftmals kaum oder nicht • 
zu treffen ist r da eine starke Abhancjigkeit vpm Werteraum der 
einzelnen Parameter besteht, der oftmals nicht oder nur unzu- 
reichend bekannt ist. Auch kann eine exakte Analyse derart 
viel Rechenzeit in Anspruch nehmen, daB sie nicht mehr sinn- 
voll durchfdhrbar ist. 
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In derartigen Fallen kann beispielsweise die Analyse durch 
Hinweise vom Progranunierer vereinfacht warden und/oder es kann 
anhand entsprechender Compil erschaIter derart gearbeitet wer- 
den, daB im Zweifelsfall entweder von einer hohen Paralleli- 
sierbarkeit (ggf . unter Verschwendung von Ressourcan) Oder von 
einer niederen Parallelisierbarkeit (ggf _ unter VerschwQndung 
von Performance) ausgegangen werden soil. 

Ebenf alls kann in diesen Fallen sine empirische Analyse zur 
Laufzeit durchgeffihrt werden. Nach PACT10, PACT 17 sind Verfah- 
ren bekannt, die zur Laufzeit die Erstellung von Statistiken 
ttber das Programmverhalten erlauben. Derart kann z. B zu- 
nachst von einer maximalen Parallelisierbarkeit ausgegangen 
werden. Die einzelnen Pfade geben Meldungen an eine Stati- 
stikeinheit (z. B. implementiert in einer CT oder einer ande- 
ren Stu f e,vgi. PACT10, PACT 17,. grunds a t z 1 ich kennen aber auch ■ 
Einheiten nach PACT 04 ver W enden werden) viber jeden Durchlauf 
zurack. Mittels statistischer Mafinahmen 1st nuniuehr auswert- 
bar, welcne Pfade tatsachlich parallel durchlaufen werden 
Weite.hin ergibt sich die Mc-glichkeit, anhand der Daten zur 
Laufzeit zu bewerten, welche Pfade haufig oder selten odex nie 
Parallel durchlaufen werden. Diese Art der Pfadnutzungsxneldung 
ist nacht zwingend, aber vorteiihaft. 

Demantspzacnend kann die Aus fQ hrung bai aina*, nachstan Pro- 
gra^ufruf op timi art W azdan. Dafi dazu die Statiatikinfor^ati- 
on inabeaondere nichtf Mchtig. „ia auf aina Festpiatte wegge- 
schrieben werden kann, sei erwahnt. Aua PACT22, PACT24 ist be- 
kannt, daB mehrere Konf igurationen antwadar zugleicn k on fi,u- 
rrert wardan tennan und danach durch Triggar (PACTOS) anga- 
steuert warden oder nur aina Ontermenge konfiguriert ist und • 
dxa reatlichan Konfigurationen bai Bedarf dadurc* nacngeladen 

Tcf"' ^ »*W~ - aina Ladaainhait 

(CT, PACT10) gesendet warden. 

Der im folgenden gebrauchte Wert PARCp) gibt zur Vexdeutli- 
chung an, welche . Parallel!^ auf Instruktionsniveau. d. h! 
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wieviel ILP bei einer bestiromten Stufe (p) innerhalb des aus 
der Funktion trans formiert en Datenf lufigraphen erreichbar ist 
(Figur 7a) . 



Gieichfalls bedeutsanr ist Vektorparallelitat (vgl. VEC{}), 
Vektorparallelitat ist nutzbar, wenn grofiere Datenmengen zu 
verarbeiten sind. In diesem Fall sind lineare Folgen von Ope- 
rationen vektorisierbar, d,h. alle Operationen konnen gleich- 
zeitig Datenverarbeiten, wobei typischerweise jede separate 
Operation ein separates Datenwort bearbeitet. 

Innerhalb von Schleifen ist dieses Vorgehen teilweise nicht 
mSglich. Daher sind Analysen und Optimierungen notwendig. . 
Beispielsweise kann der Graph einer Funktion durch ein Petri - 
net'z ausgedruckt werden. Petri-Netze besitzen die Eigenschaft, 
dall die Ergebnisweitergabe von Knoten kontrolliert erfolgt, 
wodurch beispielsweise Schleifen modelliert werden kannen. 
Durch die Riickkopplung des Ergebnisses in einer Schleife wird 
der Datendurchsatz bestimmt. Beispiele: 

• Das Ergebnis der Berechnung n wird far die Berechnung n+l 

benotigt: Nur eine Berechnung kann innerhalb der Schleife 
ausgeftihrt werden. 

• Das Ergebnis der Berechnung n wird fttr die Berechnung n+m 

benotigt: m-1 Berechnungen konnen innerhalb der Schleife 
ausgefUhrt werden. 

• Das Ergebnis bestiromt den Abbruch der Schleife, geht aber 

nicht in die Berechnung dor Ergebnisse ein: Eine Riick- 
kopplung ist nicht notwendig. Ggf . laufen zwar falsche 
(zuviel) Werte in die Schleife, jedoch kann die Ausgabe 
der Ergebnisse direkt bei Erreichen der Endbedingung am 
Schleifenende unterbrochen werden. 



Vor der Analyse von Schleifen konnen diese hach dem Stand der 
Technik optimiart werden. 'Beispielsweise konnen bestimmte in- 

53 



16-RUG-2002 23= 05 PR^^NU. P. PIETRUK ^^49 721 469308 5 

struktionen aus der Schleife herausgezogen werden und vor oder 
nach die Schleife gestellt werden. 



Der im Folgenden zur Verdeutlichung gebrauchte Wert VEC kann 
den Grad der Vektorisierbarkeit einer Funktion veranschauli- 
chen. Mit anderen Worten zeigt VEC an, wieviele Datenworte zu- 
gleich innerhalb einer Menge von Operationen bearbeitet warden 
konnen. VEC kann beispielsweise aus der Zahl der benotigten 
Rechenwerke fur eine Funktion n aode3 und der zugleich innerhalb 
des vektors berechenbaren Daten n*^ berechnet werden, z.B 
durch VEC. - n nwle8 / n<lata 

1st eine Funktion beispielsweise auf 5 Rechenwerke abbildbar 
(n nodes - 5) und in jedem der Rechenwerke konnen zugleich Daten 
bearbeitet werden ( nd3Ca = 5 ) ist VEC = l (Fi g ur 7b) 
1st eine Funktion dagegen beispielsweise auf 5 Rechenwerke ab- 
bxldbar (n nodes - 5 ) und nur in einem Rechenwerk konnen jeweils 
Daten bearbeitet werden, Z . B. aufgrund einer RUckkopplung der 
E.gebnisse der Pipeline auf den Eingang <n data = 5), 30 ist VEC " 
- 1/5 (Figur 7c) . 

VEC kann far eine gss3mta md/oaMr fQr T . llaUMolmit _ 

" ein " *»»**«» -rennet werden. Far den erfindungsgem^an 
Conner kennen be id e Varianten vorteilhart aain, wle generell 
die Basting ^ fluswertung von TOC „ orteilhaft ist _ 

GamajJ Figur 7a „ ird paK(p) f(lr ze . ie e . nes ^ ^_ 

«=*-«:, wie vorteilnaft MOglich. Elne Zeile eines Graphen ..^ 
dadurch definiert, da* ale innerhalb einer Takteinhait auage- 
ruhrt „ird. Die An Z ahl der Oparationen ist van dar I.plan.an- 
tierung der jeweiligen vpo abhangig. 

Entapricht PAR (p) der Anrani dar Knoten in dar Seiie p. S o 
k«nnen alia Knoten parallai auagerOhrr warden. 
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1st PAR(p) kleiner, werden bestimmte Knoten nur alternate 
ausgefahrt. Die alternation Ausftihrungen jeweils eines Kno- 
tens werden in jeweils einer PAE. zusammengef afit . Eine Selekti- 
onsvorrichtung ermoglicht die Aktivierung der, de ra status der 
Datenverarbeitung entsprechenden. Alternative Z ur Laufzeit wie 
beispielsweise in PACT 08 beschrieben. 

VEC wird ebenfalls jeder Zeile eines Graphen zugeordnet. 1st 
far eine Zeile VEC - 1, bedeutet dies, daB die Zeile als Pipe- 
linestufe bestehen bleibt. 1st eine^Zeile kleiner 1, so werden 
alle nachfolgenden Zeilen, die ebenfalls kleiner 1 sind zusam- 
mengefafit, da ein Pipelining nicht moglich ist. Entsprechend 
der Reihenfolge der Operationen werden diese zu einer Seguenz 
zusarcmengefafit, die dann in eine PAE konfiguriert wird und zur 
Laufzeit seguentiell abgearbeitet wird. Entsprechende Verfah- 
ren sxnd beispielsweise aus PCT/DE 97/02949 und/oder PCT/DE 
97/02998 bekannt. 

Durch das beschriebene Verfahren lassen sich durch Gruppierun- 
gen von Seguenzern beliebig komplexe Parallelprozessormodelle 
aufbauen. Insbesondere sin d Seguenzerstrukturen zur Abbildung 
von reentrantem Code generierbar. 

Die dazu jeweils notwendigen Synchronisation konnen bei- 
spxelsweise durch das in PACT 13 beschriebene TimeStamp- 
Verfahren oder bevorzugt durch das in PACT 08 beschriebene • 
Triggerverfahren durchgefahrt werden. 

werden nvehrere Seguenzer oder seguentielle Telle auf ein PA 
abgebxidet, ist „ aus Le ie tung SV e r br*uoh 3 grunden bevorzugt, 
d« Leistung der einzelnen Seguenzer aufeihander abzusti^en. 
D,es kann besonde„ b e vo rS u g t derart ge.chehen, da* die Ar - 

TZT eqUSnZen SSquenser ^ Zander angepafit werden. Aus 

PACT25 und PACT 18 sind beispielsweise Verfahren bekannt, die 
eine individuelle Taktung Von einzelnen P AEs oder PAE-Gruppen 
zulassen. : ^ F 
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Die Freguenz eines Sequenzers kann dabei anhand der Anzahl von 
Zyklen bestimmt werden, die er typischerweise zur Abarbeitung 
der ihm zugewiesenen Funktion benotigt. 

BenStigt er beispielsweise 5 Taktzyklen zur Abarbeitung seiner 
Funktion wahrend das restliche System genau einen Taktzyklus 
benotigt, um zugewiesene Aufgaben abzuarbeiten, sollte seine 
Taktung 5-mal hoher sein als die Taktung des restlichen Sy- 
stems. Bei einer Vielzahl von Sequenzern sind jeweils unter- 
schiedliche Taktzyklen mdglioh. Es kann eine Taktvervielfa- 
chung und/oder eine Taktteilung vorgesehen werden. 

Funktionen werden entsprechend des vorgenannten Verfahrens 
partitioniert. Beim Partitionieren werden entsprechend Spei- 
cher fur Daten und relevanten Status eingefUgt. Weitere alter- 
native und/oder weitergehende Verfahren sind aus PACT 13 und 
PACT 18 beicannt. 

Manche VPUs bieten nach PACT01, PAC T10, PACT13, PACT17 , ' 
PACT22, PA CT24 die MdgUchkeit der dif f erentieilen Rekonfigu- 
ration. Diese kann angewendet warden, wenn nur verhaltnismafiig 
wenige Anderungen innerhalb der Anordnung von PAEs bei einer 
Configuration notwendig werden. Mit anderen Worten werden 
nur die Veranderungen einer Konf iguration gegenuber der aktu- 
ellen Konfiguration rekonf iguriert. Die Partitionierung kann 
xn diesem Fall dergestalt sein, da* die auf eine Konfiguration 
folgenden (differentielle) Konfiguration nur die notwendigen ■ 
Rekonfigurationsdaten enthait und keine vollstandige Konfigu- 
ration darstellt. D er Compiler der vorliegenden Erfindung 1st 
bevorzugt dazu ausgebildet, dies zu erkennen und zu unterstut- ' 
zen- 



Das Scheduling der Rekonfiguration kann durch den status er- 
folgen, der Funktion (en, an eine Ladeeinheit (CT) meldet, wel- 
che ihrerseits auf Basis des eingehenden Status die nachste 
Konfxguration oder TeilKonf iguration auswahlt und konfigu- 
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riert. la Detail aind derartige Varfahren aus PACT01, PACT05 
PACTIO. PACT13, PACT17 bekannt. 

»eiterhin kann das Scheduling die MSglichkeit das Vorladens 
van Konfiguretionen „ ahreM der laufieit etner anderen 

guration untaratatsan. Dabel konnen mshrere Konfigurationan 
megllcherweiae auch spekulativ vcrgeladen warden, d.h. ohne 
da B axchergestellt iat, da* dia Konfigurationan Oberhaupt be- 
notigt warden. Dies iat bescndera dann bevorzugt, wan„ dia CT 
at„a bai langeren, konf igurationefrei abarbeitbaren Datenatra- 
men ru.lndeat waitgenend unbelaatet iat „ nd inabesondere nicht 
Oder nur wenig auf gabenbelastei- i n „ , 

„ y enoexastet ist. Durch Selektionsmechanis- 

man wxa etwe nach DE 197 04 728.9 warden dann aur X.aufzeit dia 
zu varwandandan Kcnfigurationan ausgewahlt (siehe 
spiel NLS in PACT22/24) . 

Ebenf.Ha kannan die lokelen Se,uenzer durch dan status ihrer 
Datenverarbeitung geatauart warden, „ia etwa aus C B 196 51 

Durcnrohrung ihrer Rekonfiguratlon. kann ain weiterer abhangi- 
gar- odar unebhangiger Status an dia CT ge»eldet warden (aiehe 
beiapialawaise PACT04, LLBACK) . 

Baa Voratehende wird nun mit Be SU g auf weitere Piguren be- 
achrreben. Oabei warden i m folgenden folgende ^ ^ 

arnfachung dar Schreibung verwendet: v odar, a und. 

Z°7 81 SSi9t *• G ™* nacb Pig. 7a auf ei- 

sLr h Pe maXlmalar Parallels. 

nut.barer Vektoriaierbarkeit. Ja doch aind dia M en 9 an TOn 0 pe- 
rationen V2=*{ii , . A . y pe 

Hi} nicht parallel par fnarf/? -5 /1 n n : , 

Par (par({2,3 r 4})= l. Darait lassen sich . 
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Ressourcen einsparen, ' indem jeweils eine Menge P2, P3, P4 vc , n 
Operationen einer PAE zugeordnet wird. Ein Statussignal zu j e - 
dem Datenwort in jeder Stufe wahlt die auszufuhrende Operation 
in der jeweiligen PAE aus. Die PAEs sind als Pipeline (Vektor) 
vernetzt und jede PAE ftthrt je TaJct sine Operation fiber je- 
weils unterschiedliche Datenwort aus. 

Es ergibt sich folgender Ablauf : 

PAE2 berechnet Daten und gibt diese an PAE2 weiter. Zusammen 
mit den Daten gibt sie ein Statussignal weiter, das anzeigt, 
ob il oder i2 ausgefuhrt werden soil. 

FAE2 berechnet die Daten von PAE1 welter. Entsprechend des 
eingehenden Statussignals wird die auszuftihrende Operation 
(il, 12) ausgewahlt und berechnet, Entsprechend der Berechnung 
gibt PAE2 ein Statussignal an PAE3 weiter, das anzeigt, ob (14 
v i5) v (16 v 17 v 18) ausgefuhrt werden soil. 
PAE3 berechnet die Daten von PAE 2 weiter. Entsprechend des 
eingehenden Statussignals wird die auszufuhrende Operation (14 
v 15) v (16 v ±7 v 18) ausgewahlt und berechnet. Entsprechend 
der Berechnung gibt PAE 3 ein Statussignal an PAE 4 weiter, das 
anzeigt ob 19 v ilO v ill ausgefuhrt werden soil. 
PAB4 berechnet die Daten von PAE3 weiter. Entsprechend des 
eingehenden Statussignals wird die auszufuhrende Operation 19 
v ilO v ill ausgewahlt und berechnet. 
PAE5 berechnet die Daten von PAE 4 weiter. 

Ein mogliches entsprechendes Verfahren und Hardware, die eine 
besonders gunstige Umsetzung des beschriebenen erlaubt, ist in 
DE 197 04 728.9 (Figuren 5 und 6) beschrieben; auch PACT 04 und 
PACT10, PACT 13 beschreiben allgemein nutzbare, jedoch aufwen- 
digere Verfahren. 

Pigur 8<= zeigt wiederum denselben Graphen. in diesem Beispiel 
ist eine Vektorisierung nicht moglich, jedoch" ist PAR(p) hoch. 
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was bedeutet, dafi innerhalb einer Zeile jeweils eine Vielzahl 
von Operationen gleichzeitig ausgefiihrt warden kann. Die 
parallel durchfiihrbaren Operationen sind P2 » {11 a 12), P3 = 
{14 a 15 a 16 a 17 a 18}, P4 = {19 A HO a ill}. Die PAEs sind 
derart vernetzt, daB sie beliebige Daten beliebig .untereinan- 
der austauschen konnen. Die einzelnen PAEs fiihren nur dann 
operationen durch, wenn im entsprechenden Zyklus ein ILP be- 
steht, ansonsten verhalten sie sich neutral (NOP) , wobei ggf. 
Heruntertaktung und/oder eine Takt- und/oder Stromabschaltung ' 
zur Minimierung der Ver lust lei stung erfolgen kann. 
Es 1st dabei folgender Ablauf vorgesehen: 

Im ersten Zyklus arbeitet nur FAE2 und gibt die Daten an PAE2 
und PAE3 weiter. 

IirTzareiten Zyklus arbeiten PAE2 und PAE3 parallel und gaben 
ihre Daten an FAE1, PAE2, PAE3, PAE4, PAE5 weiter. 
Ira dritten Zyklus arbeiten PAE1, PA E2, PAE3, PAE4, PAES und 
geben die Daten an PAE2, PAE3, PAB5 weiter. 

Im Werten Zyklus arbeiten PAE2, PAE3 r PAES und geben die "Da- 
ten an PAE2 weiter. 

Im fiinften Zyklus arbeitet nur PAE2 . 

Die Funktion benotigt somit 5 Zyklen zur Berechnung. Der ent- 
sprechende Sequenzer sollte also mit dem 5-fachen Takt im Ver- 
haltnis zu seiner Umgebung arbeiten, urn eine entsprechende 
Performance zu erzielen. 

Ein mogliches entsprechendes Verfahren 1st in PACT 02 (Figuren 
19, 20 und 21) beschrieben; auch PACT 04 und PACT10, 13 be- 
schreiben allgemein nutzbare, jedoch aufwendigere Verfahren. 
Weitere Verfahren und/oder Hardware sind verwendbar. 

Figur 8d zeigt den Graphen nach Fig. 7a far den Fall, dafi kei- 
nerlei nutzbare Parallelitat besteht. Zur Berechnung eines Da- 
tenwortes mufi jede Stufe nacheinander durchlaufen werden. In- 
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nerhalb der Stufen wird immer nur genau einer der Zweige ver- 
arbeitet . 

Die Funktion benotigt ebenfalls 5 Zyklen zur Berechnung, cyl = 
(il), cy2 = (12 v 13), C y3 - (14 v 15 v 16 v 17 v 18), cy4 = 
(19 v 110 v ill,, C y5 = (112) . Der entsprechende Sequenzer 
sollte also mit dem 5-fachen Takt im Verhaltnis zu seiner Om- 
gebung arbeiten, um eine entsprechende Performance zu erzie- 
len . 

Eine derartige Funktion 1st beispielsweise ahnlich Fig. 8c 
durch einen einfachen Sequenzer nach PACT02 ( Figuren 19, 20 
und 2l)abbildbar. Auch PACT 04 und PACT10, 13 beschreiben all- 
gemein nutzbare, jedoch aufwendigere Verfahren. • 



Die in Figur S dargestellten Abbildungen sind beliebig misch- 
bar und gruppierbar. 

In Figur 9a ist beispielsweise disselbe Funktion dargestellt, 
bei welcher die Pfade (i 2 A (i4 v i5) a 19) und (13 a (16 v 17 
v 18) a (19 v HO)) parallel ausfuhrbar sind. (14 v 15), 16 v 
17 v 18), (19 v 110) sind jeweils alternativ. Die Funktion ist 
weiterhin vektorisierbar. Damit last sich eine Pipeline auf- 
bauen, in welcher fur 3 PAEs (PAE4, PAE5, PAE7) jeweils anhand 
von Statussignalen die jeweilig auszufohrende Funktion be- 
stimmt ist. 

Figur 9b zeigt ein ahnliches Beispiel, bei dem eine Vektori- 
sierung nicht mSglich ist. Allerdings sind die Pfade 
(il a 12 a (14 v 15) a 19 a 112) und (13 a (16 v i7 v 18) a 
(ilO v ill)) parallel. Damit laflt sich die optimale Perfor- 
mance dureh den Einsatz von zwei PAEs erzielen, die bei die 
parallelen Pf ade auch parallel abarbeiten. Die Synchronisation 
der PAEs untereinander erfolgt durch Statussignale, die vor- 
zugsweise von PAE1 generiert werden, da diese den Beginn (il) 
und das Ende (ii 2 ) der Funktion berechnetl ; 
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Es soil besonders darauf hingewiesen werden, dafi sich aus ei- 
nSr mehr ^ c han Anordnung von Sequenzern ein symetrisch paral- 
lels Prozessormodell (SMP) oder ahnliche, haute verwendete 
Mehrprozessonaodelle ergeben konnen. 

Weiterhin sol! darauf hingewiesen werden, dafi samtliche Konfi- 
gurationsregister far das Scheduling auch im Hintargrund 
und/odar wahrend dar Datenverarbeitung mit nauan Konf iguratio- 
nen geladen warden konnen. 

Es 1st dias atwa moglich, wenn die Hardware wie nach DE 196 51 
075.9-53 bekannt aufgabaut 1st. Es stehen dann unabhangige 
Speicherbereiche oder Register zur Vrfttgung, die unabhangig 
angasprochen warden konnen. Auf bestimmte Snellen wird durch 
emgehende Trigger gesprungen, ebanfalls kann mittels Sprung- 
befehlen ( JMF, CALL /RET) r die ggf. aU ch bedingt durchf Uhrbar 
sind gesprungen werden. 

GamaU DE 196 54 846.2-53 st ahan unabhangiga Schraib- und L asa- 
zaigar zur Verfugung. W od»rch grundsatzlieh aina UnabhMngig- 
kalr und somit die MBglicnkeit das Zugrirfas im Hintargrund 
gagaban 1st. insbascndare ist as mSg lich, dia Spaichar zu seg- 
mantiaran. W odurch aina zusatzlicha Onabhangigkeit gegeban 
ist. Mltt als SprungbafshXan (OWP, CM.L/REI) , dia ggf. auch be- 
dingt durchfuhrbar sind, kann gesprungen werden. 

Nach DE X97 04 728.9 sind dia einzeXnen Register, dia durch 
dia Triggar gawahlt „ardan kdnnan, grundsatzXich unabhangig 
und arlauben daher aina unabhangiga Konfiguration, insbesonde- 
« » Hrntergrund. Sprunge innaxhaib da, Better sind nlcht 
mbgiich, dxa AuswahX arfolgt ausschlieBiich fiber dia Triggar- 
vektoren. yy 
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Ein wesentlicher Faktor zur Bewertung der Effizienz von Par 
und VEC ist die Art der Daten die durch die jeweilige Struktur 
verarbeitet warden. Beispielsweise ist es lohnen eine Struktur 
auszuwalzen, also zu pipelinen und Oder parallelisieren, die 
eine groBe Menge von Daten verarbeitet; wie es z.B. bei Video- 
daten Oder Telekomdaten der Fall ist. Strukturen die wenige 
Daten verarbeiten (z.B. Tastatureingabe, Maus, etc.) lohnen 
sich nicht ausgewalzt z U werden, im Gegenteil sie warden nur 
anderen Algorithmen die Ressourcen blockieren. 

Somit wird vorgeschlagen anhand unterschiedlicher Hinweise nur 
die Algorithmen, Strukturen oder Telle von Algorithmen 2 u par- 
allelisiern und vektorisieren, die entsprechend groAe Daten- 
mengen Verarbeiten. 

Derartige Hinweise konnen beispielsweise sein: 

1. Der Datentyp (Arrays, streams sollten z.B. aufgrund der ho- 
hen Datenmenge eher ausgewalzt werden als z.B. einzelne Zei- 
chen) . 

2. Die Art des Zugriffes (lineare Programmabfolgen sollten 
s-B.in Sequenzer abgebildet werden, wahrend Schleifen sich 
z.B. aufgrund der hohen Anzahl von Durchlaufen zum Auswalzen 
lohnen. 

3. Die Art der Quelle und/oder des Ziels (Tastatur und Maus 
haben z.B. eine zu geringe Datenrate urn effizient ausgewalzt 
zu werden, dagegen i st z.B. die Datenrate bei Netzwerk 
und/oder Video Quellen oder Zielen deutlich hoher) . 

^r die Analyse konnen dabei eine beliebige Menge dieser Bin- 
wexse hxnzugezogen werden. 
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lokal relevanter Zustand 



global relevanter Zustand 



relevanter Zustand 



irrelevantez: Zustand 



Zustand, der nur innerhalb ei- 
ner bestimmten Konf iguration 
relevant ist; 

Zustand, der in mehreren Kon- 
figurationen relevant ist und 
zwischen den Konf igurationen 
ausgetauscht werden mufi; 

Zustand, der innerhalb eines 
Algorithmus zu dessen korrek- 
ter Ausftihrung clessen benStigt 
wird und somit durch den Algo- 
rithmus beschrieben ist und 
davon verwendet wird; 

Zustand, der ftir den eigentli- 
chen Algorithmus ohne Bedeu- 
tung ist und auch nicht im Al- 
gorithmus beschrieben ist, der 
jedoch von der ausfuhrenden 
Hardware implementierungsab- 
hangig benotigt wird 
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Patentanspriiche 

1. Verfahren zum Obersetzen von Hochsprachen auf rekonf igu- 
rierbare Architekturen, dadurch gekennzeichnet , dali ein 
endlicher Automat zur" Berechnung derart aufgebaut wird f da 
ein komplexes kombinatorisches Netz aus einzelnen Funktio- 
nen gebildet wird und dem Netz Speicher zur Speicherung de 
Operanden und Ergebnissen zugeordnet sind. 

2. Verfahren zum Datenbe- und/oder verarbeitung mit einem mul 
tidimensionalen Feld mit rekonf igurierbaren ALUs, dadurch 
gekennzeichnet/ daft ein Hochsprachencode vorgesehen und 
derart uberset2t wird, dafi ein endlicher Automat zur Be- 
rechnung aufgebaut wird, wobei ein komplexes korabinatori- 
sches Netz aus einzelnen Funktionen gebildet und dem Netz 
Speicher zur Speicherung der Operanden und/oder Ergebnisse 
zugeordnet werden. 

3- Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daJJ das komplexe kombinatorische Netz so 
aufgebaut und/oder zerlegt wird, dafl die PAE-Matrix mttg- 
lichst lange ohne Rekonf iguration betrieben wird. 

4. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, dafi komplexe Instruktionen bestimmt werden, urn 
das komplexe kombinatorische Netz so aufzubauen und/oder zt 
zerlegen, daii die PAE-Matrix moglichst lange ohne Rekonfi- 
guration betrieben wird. 

5. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dafl ein endlicher Automat direkt aus impe- 
rativem Quelltext aufgebaut wird. 
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6. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dafl ein endlicher Automat aus an grobgranu 
lare Logikkreise und/oder an vorhandene feingranulare Ele- 
mente (FPGA-Zellen in der VPU, statemachines etc.) angepafi 
te Operationen aufgebaut wird, insbesondere ausschlieUlich 
an solche. 



7. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft ein endlicher Automat dann in Konfigu- 
rationen zerlegt wird. 

8. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft generierte Konf igurationen succesive 
auf die PAE-Matrix abgebildet werden und Arbeitsdaten 
und/oder Zustande, die zwischen den Konf igurationen zu 
ubertragen sind, in Speicher abgelegt werden. 

9- Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daft der Speicher vora Compiler bestimmt bezie- 
hungsweise vorgesehen wird. 

10. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daft wahrend einer Konf iguration Daten aus einer 
VPU externen Quelle und/oder einem internen Speicher verar- 
beitet und an eine externe Quelle und/oder einen internen 
Speicher geschrieben werden. 

11. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft ein Speicher fur einen gesamten Daten- 
satz vorgesehen wird, der umfangreicher als ein einzelnes 
Datenwort 1st. 



- Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft bei Verarbeitung einer ablaufenden Kon- 
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figuration Daten compilerbestimmt in die Speicher abgelegt 
werden. 



13. Verfahren nach einera der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dafi ein Speicher fQr Operanden, ein Spei- 
cher fiir Ergebnisse und ein Netzwerk aus Zuweisungen 
und/oder Vergleichen-Anweisungen, also Bedingungen wie z.B 
IF, CASE/ Schleifen (WHILE, FOR, REPEAT) sowie optionalen 
Adressgenerator (en) zur Ansteuerung der Speicher mit dem 
Automaten vorgesehen werden. 



14. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dafi Zustanden wie erforderlich Speicher zu 
geordnet werden, und hierbei zwischen algorithmisch rele- 
vanten und irrelevanten Zustanden unterschieden wird, ins- 
besondere solchen relevanten Zustanden, die innerhalb des 
Algorithmic notwendig um dessen korrekte Funktion zu be- 
schreiben und solchen irrelevant© Zustande, die durch die 
verwendete Hardware und/oder die gewahlte Abbildung oder 
aus anderen sekundaren Griinden entstehen, 

15. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dafi Load/Store Operationen unter Vorsehen 
einer externen Adressierung, also des Datentran.sf ers mit 
externen Baugruppen und einer interne Adressierung, also 
die Datentransfers zwischen PAEs, l.b. zwischen RAM-PAEs 
und ALU- PAEs vorgesehen werden. 

16. Verfahren nach einera der vorhergehenden Anspriiche, dadurch 
gekennzeichnet, dafi bei der Datenverarbeitung eine erste 
Konfiguration entfernt wird und die zu sichernden Daten in 
entsprechenden Speichern (REG) (Speicher, Register, Zahler, 
etc) verbleiben. 
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17. Verfahren nach einem der vorhergehenden Anspruche, dadurcl; 
gekennzeichnet, dafl die erste Konf iguration wieder gelader 
wird und auf die zuvor gesicherterten, ihr zugeordnete Da- 
ten zugreift. 



18. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daii far den Zugriff auf zuvor gesichertert 
Daten eine zweite Konf iguration geladen wird, die die REG 
in geeigneter Weise und definierter Reihenfolge mit einem 
oder mehreren globalen Speicher (n) verbindet, insbesondere 
urn unter Verwendung von Adressgeneratoren auf den/die glo- 
balen Speicher zuzugreifen, wobei der Adressgenerator die 
Adressen fur den/die globalen Speicher (n) bevorzugt derart 
generiert, dass die beschriebenen Speicherbereiche (PUSHA- 
REA) der entfernten ersten Konf iguration eindeutig zugeord 
net werden kennen. 

19. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dafi automatisch Transformation zur Repre- 
sentation der Parallelisier- b.zw. Vektorisierbarkeit (Par- 
Vec-Transformation) durchgefiihrt werden und/oder VEC und 
PAR-Anteile als Petri -Netz ausgestaltet werden, urn wie be- 
vorzugt die Weiterverarbeitung nach kompletter Verarbeitum 
der jeweiligen Inhalte zu steuern. 

20. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dafi 

arithmetisch/logische Befehle direkt in das kombinatorisch* 
Netz abgebildet werden und/oder 

Sprunge (Jump /Call) entweder direkt in das kombinatorische 
Netz ausgewalzt und/oder durch Re konf iguration realisiert 
werden und/oder 

Bedingungen und Kontrollfluflbefehle (if, etc) entweder im 
kombinatorischen Netz vollstandig aufgelGst und /oder bear- 
beitet werden und/oder an eine ubergeordnete Konfigurati- 
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onseinheit weitergeleitet werden, die sodann entsprechend 
des entstandenen Status eine Rekonf iguration durchfiihrt 
und/oder 

Load/Store-Operationen in separate Konf igurationen abgetai: 
det und/oder durch Adressgeneratoren realisiert werden, d; 
internen Speicher (REG{ } ) mittels Adressgeneratoren in ex- 
terna Speicher schreiben und/oder diese von externen Spei- 
chern und/oder Peripherie laden und/oder 

Register-Move-Operationen im kombinatorischen Netz durch 
•Busse zwischen den internen Speichern (REG{ } ) realisiert 
werden und/oder 

Push/Pop-Operationen durch separate Konf igurationen reali- 
siert werden, die bestixraite interne Register im kombinato- 
rischen Netz und/oder die internen Speicher (REG{ } ) mittel 
Adressgeneratoren in externe Speicher schreiben oder aus 
externen Speichern lesen und die bevorzugt vor oder nach 
den eigentlichen datenverarbeitenden Konf igurationen ausge 
fQhrt werden. 



vorstehend: 

PCT-Patentanmeldung fxir alle Lander 
doxr 

Pact XPP Technologies AG 

Muthmannstr - 1 

Munchen 
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Z us anuuen f a s s s ung 

Die Erfindung betrifft die Datenverarbeitung mit multidimen- 
sionalen Feldern und gibt an, wis hierfiir vorteilhaft Hoch- 
sprachencodes einsetzbar sind. 
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